统计学习及监督学习概论

统计学习

定义

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，统计学习也称为统计机器学习

^60b03a

特点

1.统计学习以计算机及网络为平台，是建立在计算机及网络上的

2.统计学习是以数据为研究对象的，是数据驱动的学科

3.统计学习的目的是对数据进行预测和分析

4.统计学习是以方法为中心，统计学习方法构建模型并应用模型进行预测和分析

5.统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并在发展中逐步形成独自的理论体系与方法论

^a3796f

对象

统计学习研究的对象是数据（它是从数据出发，提取数据中的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析和预测中）

统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。数据分为连续性变量和离散型变量，本书以讨论离散变量的方法为主。

^c23427

目的

统计学习用于对数据的预测和分析，特别是对未知新数据的预测和分析

^cff7ef

方法

统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析

统计学习由监督学习、无监督学习、强化学习等组成

统计学习方法概括如下：从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数集合，称为*假设空间 * ；应用某个评价准则，从假设空间中选取一个最优模型，使它对已知的的训练数据及未知的测试数据在给定的评价准则下有最优的预测；最优模型的选取由算法实现
统计学习方法包括模型的假设空间**（模型）、模型选择的准则（策略）、模型学习方法（算法）**

实现统计学习方法的步骤：

得到一个有限的训练数据集合
确定包含所有可能模型的假设空间，即学习模型的集合
确定模型选择的准则，即学习的策略
实现求解最优模型的算法，即学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

统计学习的分类

基本分类

监督学习

Definition

监督学习监督学习的本质是学习输入到输出的映射的统计规律

输入变量与输出变量均为连续变量的预测问题称为回归问题；输出变量为有限个离散变量的预测问题称为分类问题

学习的映射是由模型来表示的，也就是说模型属于假设空间。模型可以是概率模型或非概率模型，由条件概率分布 $P (Y | X)$ 或决策函数 $Y = f (X)$ 表示

无监督学习

Definition

无监督学习的本质是学习数据中的统计规律或潜在结构

模型可表示为函数 $z = g (x)$ 、条件概率分布 $P (z | x)$ 、条件概率分布 $P (x | z)$ 。前两种模型可以实现对数据的聚类、降维；后面这种模型可进行概率估计

强化学习

Definition

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。，假设智能系统与环境的互动是基于马尔可夫决策过程，智能系统能观测到的是与环境互动得到的数据序列。

强化学习的本质是学习最优的序贯决策

半监督学习与主动学习

Definition

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题

半监督学习旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低的成本达到较好的学习效果

Definition

主动学习是指机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题

主动学习的目标是找到对学习最有帮助的实例让教师标注，以较小的标注代价，达到较好的学习效果（既然要对数据进行标注，我就选择最有利的数据。但是这样不会出现过拟合的问题吗？）

按模型分类

概率模型与非概率模型

Definition

在监督学习中，概率模型取条件概率分布形式 $P (y | x)$ ,非概率模型取函数形式 $y = f (x)$
在无监督学习中，概率模型取条件概率分布形式 $P (z | x)$ 或 $P (x | z)$ ,非概率模型取函数形式 $z = g (x)$

概率模型：决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
非概率模型：感知机、支持向量机、k 近邻、AdaBoost、k 均值、潜在语义分析、神经网络

逻辑回归既可看作概率模型，也可看作非概率模型

线性模型与非线性模型

Definition

这种分类主要针对的是非概率模型，如果函数是线性函数，则称模型是线性模型，否则称模型为非线性模型

感知机、线性支持向量机、k 近邻、k 均值、潜在语义分析是线性模型；核函数、支持向量机、AdaBoost、神经网络是非线性模型

参数化模型与非参数化模型

Definition

参数化模型假设模型的参数的维度固定，模型可以由有限维参数刻画；非参数化模型会随着训练数据的增加而不断增大

参数化模型：感知机、朴素贝叶斯、逻辑回归、k 均值、高斯混合模型、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

非参数化模型：决策树、支持向量机、k 近邻、AdaBoost

按算法分类

在线学习

Introduction

在线学习是指每次接受一个样本进行预测，之后学习模型，并不断重复该操作的机器学习
在线学习可以是监督学习，也可以是无监督学习，强化学习本身就拥有在线学习的特点，利用随机梯度下降的感知机算法就是在线学习算法

批量学习

Definition

批量学习是指一次性接受所有的数据，学习模型，之后进行预测

按技巧分类

贝叶斯学习

Introduction

贝叶斯学习，又称为贝叶斯推理，是统计学、机器学习中重要的方法。其主要想法是，在概率模型的学习和推理中，利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并应用这个原理进行模型的估计，以及对数据的预测。将模型、未观测要素及其参数用变量表示，使用模型的先验分布是贝叶斯学习的特点。朴素贝叶斯、潜在狄利克雷分配属于贝叶斯学习。

假设随机变量 $D$ 表示数据，随机变量 $θ$ 表示模型参数。根据贝叶斯定理，可以计算后验概率 $P (θ | D)$ ：

$P(\theta |D) = \frac {P(\theta )P(D|\theta )}{P(D)} $
其中 $P (θ)$ 是先验概率， $P (D | θ)$ 是似然函数。
模型估计时，估计整个后验概率分布 $P (θ | D)$ 。如果需要给出一个模型，通常取后验概率最大的模型。

预测时，计算数据对后验概率分布的期望值：
$P(x|D) = \int P(x|\theta ,D)P(\theta |D) d\theta $
这里的 $x$ 是新样本

核方法

Definition

核方法是使用核函数表示和学习非线性模型的一种机器学习方法，可用于监督学习和无监督学习。核函数支持向量机，以及核 PCA、核 k 均值属于核方法。核方法可以把线性模型扩展到非线性模型的学习，使其应用更加广泛。

将线性模型扩展到非线性模型，直接的做法是显示的定义从输入空间（低维空间）到特征空间（高维空间）的映射，在特征空间中进行内积计算。

核方法的技巧在于不显示地定义这个映射，而是直接定义核函数，核函数是定义在输入空间的，映射之后表示的是特征空间的内积

统计学习方法三要素

方法 = 模型 + 策略 + 算法

模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数

策略

策略的目的是按照什么样的准则学习或选择最优模型。损失函数和风险函数，损失函数用来度量模型一次预测的好坏，风险函数用来度量平均意义下模型预测的好坏。

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选取最优模型，最后需要考虑用什么样的计算方法求解最优模型

统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法。那如何保证找到全局最优解，并使求解过程高效就成为了一个很重要的问题。