bayes最大似然
最大似然估计(MLE)和 最大后验概率估计(MAP)
最大似然估计(Maximum likelihood estimation, 简称MLE)
最大后验概率估计(Maximum a posteriori estimation, 简称MAP)
相同点:两者都是已知数据推测参数的方法。
对于函数$P(x|\theta)$,$x$表示数据,$\theta$表示模型的参数:
如果$\theta$是已知的,$x$是变量,这个函数就叫做概率函数,它描述对于不同的样本点x,其出现概率是多少。
如果$x$是已知的,$\theta$是变量,这个函数就叫做似然函数,它描述对于不同的模型参数,出现x这个样本点的概率是多少。
最大似然估计(MLE):求参数$\theta$,使得似然函数$P(x|\theta)$最大
最大后验概率估计(MAP):求参数$\theta$,使得$P(x|\theta) * P(\theta)$最大.
MAP其实就是在优化$P(\theta | x) = \frac{p(x|\theta)*P(\theta)}{P(x)}$,因为分母是确定的,所以省略了分母。
举例说明两者的区别,抛硬币实验,抛了十次,分别是“反正正正正反正正正反”,求正面概率。
似然函数是$f(x_0,\theta) = \theta^7 * (1-\theta)^3 = f(\theta)$
最大似然,就是优化上面的函数,在最值点,$\theta = 0.7$
这就完成了最大似然估计。
但是,硬币一般是均匀的,这时候就要考虑先验概率,假设$P(\theta)$是均值为0.5,方差为0.1的高斯函数,那么后验概率为$P(x|\theta) * P(\theta)$,令这个值最大,则$\theta = 0.558$
如果做了更多实验,比如1000次中700次正面,这时候似然函数为$f(x_0,\theta) = \theta^700 * (1-\theta)^300 = f(\theta)$
假设$P(\theta)$仍然是均值为0.5,方差为0.1的高斯函数。算最大后验,得出$\theta = 0.696$,即更加接近0.7.
极大似然和最大后验的区别在于:MAP就是多个作为因子的先验概率$P(\theta)$。或者,也可以反过来,认为MLE是把先验概率$P(\theta)$认为等于1,即认为$\theta$是均匀分布。
模型$P(y | x,w): y = f(x,w)$ 模型优化的过程是知道x和y,梯度更新w,这个和最大似然估计是一样的。 具体可以看机器学习基础中的lr模型。
重要概念
先验概率: 所谓先验概率,就是根据以往的经验或者现有数据的分析所得到的概率。如,随机扔一枚硬币,则p(正面) = p(反面) = 1/2,这是我们根据已知的知识所知道的信息,即p(正面) = 1/2为先验概率。
条件概率: 所谓条件概率是指事件A在另一事件B发生的条件下发送的概率。用数学符号表示为:P(B|A),即B在A发生的条件下发生的概率。举个栗子,你早上误喝了一瓶过期了的牛奶(A),那我们来算一下你今天拉肚子的概率(B),这个就叫做条件概率。即P(拉肚子|喝了过期牛奶), 易见,条件概率是有因求果(知道原因推测结果)。
后验概率: 后验概率跟条件概率的表达形式有点相似。数学表达式为p(A|B), 即A在B发生的条件下发生的概率。以误喝牛奶的例子为例,现在知道了你今天拉肚子了(B),算一下你早上误喝了一瓶过期了的牛奶(A)的概率, 即P(A|B),这就是后验概率,后验概率是有果求因(知道结果推出原因)
误判损失:数学表达式:L(j|i),判别损失表示把一个标记为i类的样本误分类为j类所造成的损失。 比如,当你去参加体检时,明明你各项指标都是正常的,但是医生却把你分为癌症病人,这就造成了误判损失,用数学表示为:L(癌症|正常)。
条件风险: 是指基于后验概率P(i|x)可获得将样本x分类为i所产生的期望损失,公式为:$R(i|x) = \sum{L(i|j)P(j|x)}$。(其实就是所有判别损失的加权和,而这个权就是样本判为j类的概率,样本本来应该含有P(j|x)的概率判为j类,但是却判为了i类,这就造成了错判损失,而将所有的错判损失与正确判断的概率的乘积相加,就能得到样本错判为i类的平均损失,即条件风险。) 举个栗子,假设把癌症病人判为正常人的误判损失是100,把正常人判为癌症病人的误判损失是10,把感冒病人判为癌症的误判损失是8,即L(正常|癌症) = 100, L(癌症|正常) = 10,L(癌症|感冒) = 8, 现在,我们经过计算知道有一个来体检的员工的后验概率分别为:p(正常|各项指标) = 0.2, p(感冒|各项指标) = 0.4, p( 癌症|各项指标)=0.4。假如我们需要计算将这个员工判为癌症的条件风险,则:R(癌症|各项指标) = L(癌症|正常)* p(正常|各项指标) + L(癌症|感冒) * p(感冒|各项指标) = 5.2。
贝叶斯判别准则: 贝叶斯判别准则是找到一个使条件风险达到最小的判别方法。即,将样本判为哪一类,所得到的条件风险R(i|x)(或者说平均判别损失)最小,那就将样本归为那个造成平均判别损失最小的类。
此时:$h*(x) = argminR(i|x)$ 就称为 贝叶斯最优分类器。
朴素贝叶斯
朴素贝叶斯:采用 属性条件独立性 的假设,对于给定的待分类观测数据X,计算在X出现的条件下,各个目标类出现的概率(即后验概率),将该后验概率最大的类作为X所属的类。
举个栗子,公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋,这时候你就需要推测他的性别是什么。如果推测出他是男性的概率大于女性,那么就认为他是男性,否则认为他是女性。
计算过程如下:
后验概率说明是男性的概率较大。
朴素贝叶斯中的“朴素”怎么理解?朴素贝叶斯中的朴素可以理解为是“简单、天真”的意思,因为 “朴素”是假设了特征之间是同等重要、相互独立、互不影响的,但是在我们的现实社会中,属性之间并不是都是互相独立的,有些属性也会存在性,所以说朴素贝叶斯是一种很“朴素”的算法。
模型预测的是后验概率。
例题
已知先验概率和条件概率,求后验概率。
已知某肺炎的患病率为0.01%。现在需要做检测,如果被测者患病则被检测为阳性的概率为99%。如果被测者没有病则被检测为阴性的概率为99.9%。现在一个人检查结果是阳性。问真正得病的概率是多少?
平时北京有雾霾的概率是1/4,一个人说真话的概率是3/4,问了三个人,都说北京有雾霾,那么北京有雾霾的概率是多少?
Last updated
Was this helpful?