分类算法概述
目录
分类算法
主要区分一下生成模型和判别模型,首先要知道生成模型和判别模型都属于监督学习,即样本有其对应的标签的。还有一个概念就是硬分类和软分类,简单理解就是硬分类是直接分出类别,比如线性判别分析、感知机。而软分类是计算出概率,根据概率来得到类别,生成模型和判别模型都是软分类。
生成模型
学习得到联合概率分布\(P(x,y)\),即特征x与标签y共同出现的概率,然后求条件概率分布。能够学习到数据生成的机制。通俗的说就是如果有k类,就学习k个概率密度分布,对于样本,算出在每个概率密度分布下的概率,哪个概率大就属于哪一类。
生成模型要求的数据量比较大,能够更好地估计概率密度。 ## 判别模型
学习得到条件概率分布\(P(y|x)\),即在特征x出现的情况下标记y出现的概率。
判别模型对样本的要求没有那么多。
理解
无论是生成还是判别模型都是来求有监督模型的,目的是通过分类函数或者条件概率函数进行数据分类。
算出属于正负样本的概率再互相对比的就是生成模型,直接得到结果概率的就是判别模型,生成模型得到分布,判别模型得到最优划分。
生成模型可以得到判别模型,反之不成立。
生成模型是求联合概率分布,判别模型是求条件概率分布。
生成方法的学习收敛速度更快,当样本容量增加的时候,学到的模型可以更快的收敛于真实模型。
判别学习不能反映训练数据本身的特性,但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异,直接面对预测,往往学习的准确率高于生成模型。
简单的说,生成模型是从大量的数据中找规律,属于统计学习;而判别模型只关心不同类型的数据的差别,利用差别来分类。
生成式模型:
- 朴素贝叶斯
- 混合高斯模型
- 隐马尔科夫模型(HMM)
- 贝叶斯网络
- Sigmoid Belief Networks
- 马尔科夫随机场(Markov Random Fields)
- 深度信念网络(DBN)
判别式模型
- K近邻(KNN)
- 线性回归(Linear Regression)
- 逻辑回归(Logistic Regression)
- 神经网络(NN)
- 支持向量机(SVM)
- 高斯过程(Gaussian Process)
- 条件随机场(CRF)
- CART(Classification and Regression Tree)