统计学习 statistical learning

  • 构建概率统计模型并运用模型对数据进行预测与分析的学科。

  • 特点

  • 学习定义

  • 统计学习对象: 数据 提取特征,模型,发现知识,对数据分析与预测,基本假设,同类数据有一定统计规律性。

  • 统计学习的分类

    • supervised learning
    • unsupervised learning
    • reinforcement learning
  • 统计学习方法:

  • 统计学习方法步骤

    1. 得到有限的训练数据集合
    2. 保含所有可能的模型的假设空间,即学习模型的集合
    3. 确定模型选择的准则即学习的策略
    4. 实现求解最优模型的算法,即学习的算法
    5. 通过学习方法选择最优模型
    6. 利用学习的最优模型对数据进行预测或分析

监督学习

labled data

本质是学习输入到输出的映射的统计规律。

输入空间、特征空间、输入空间

instance,feature vector,feature space。

问题分类

  • 回归
  • 分类
  • 标注问题
    输入变量与输出变量均为变量序列的预测问题

联合概率分布

理论

假设空间

监督学习的模型可以是概率模型或者非概率模型。有条件概率P(Y/X)或者决策函数(decision function)Y = f(X)表示,随具体学习方法而定。

问题的形式化

Screen-Shot-2020-02-05-at-12.53.56
分为学习和预测两过程。
argmax vs y=f(x)

无监督学习

无标注数据 本质是学习数据中的统计概率或潜在结构。模型对数据聚类,降维,或概率估计。

Screen-Shot-2020-02-05-at-12.54.53

强化学习

智能系统与环境的连续互动中学习最优行为策略的机器学习问题

半监督学习与主动学习

更接近监督学习

new learning

概率模型vs 非概率模型

  • 决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
  • 感知机、支持向量机、k近邻、AdaBoost、潜在语义分析、神经网络
  • 逻辑斯谛回归

相互转换,区别呢?
概率模型的代表概率图模型。如贝叶斯网络、马尔可夫随机场、条件随机场。

线性模型 vs 非线性模型

  • 感知机、线性支持向量机、k近邻、k均值、潜在语义分析
  • 核函数支持向量机、AdaBoost、神经网络(深度学习)

参数化模型 vs 非参数化模型

参数化模型假设模型参数的纬度固定。

  • 感知机、朴素贝叶斯、逻辑斯谛回归、k均值、高斯混合模型
  • 决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

按算法分类 online vs batch learning

online 可以是监督/无监督,强化学习有在线学习的特点。

按技巧分类

贝叶斯学习

  • 朴素贝叶斯
  • 潜在狄利克雷分配

核方法

  • 支持向量机、核PCA、核K均值

统计学习方法三要素

模型

策略

算法

模型评估与选择

正则化与交叉验证

泛化能力

生成模型与判别模型