条件概率 (Conditional Probability)
+条件概率是指在给定另一事件已经发生的情况下,某一事件发生的概率。条件概率通常表示为P(A∣B),读作“在B发生的情况下A发生的概率”。其中,P(A∣B)表示在事件B发生的前提下事件A发生的概率。
+条件概率的计算公式为:
+P(A∣B)=P(B)P(A∩B)
+其中,P(A∩B)表示事件A和事件B同时发生的概率,P(B)表示事件B发生的概率。
+对于离散随机向量 (X,Y), 已知 X=x 的条件下,随机变量 Y=y 的条件概率为:
+p(y∣x)=P(Y=y∣X=x)=p(x)p(x,y)
+贝叶斯公式
+参考:【原创】深入理解贝叶斯推断(Bayesian inference)(醍醐灌顶) - 知乎 (zhihu.com)
+两个条件概率 p(y∣x) 和 p(x∣y) 之间的关系
+p(y∣x)=p(x)p(x∣y)p(y)
+p(y∣x)∝p(x∣y)p(y)
+p(y∣x) 被称为后验概率( posterior )
+p(x∣y) 被称为似然 ( likelihood )
+p(y) 被称为先验概率 (prior)
+简单例题
+你今天打算去郊游,但早上多云。50% 的雨天的早上都是多云的!但多云的早上其实并不罕见,大约40%的日子早上都是多云的,同时这个月是干早的(平均 30天里只有3天会下雨,10%)。今天下雨的可能性有多大?
+x={cloudy}
+y={rainy}
+p(x∣y)=p(cloudy∣rainy)=50%
+p(y)=p(rainy)=10%
+p(x)=p(cloudy)=40%
+tocalculatep(y∣x)=p(x)p(y∣x)∗p(y)=40%50%∗10%=12.5%
+一些理解
+
+- P(D) :其中D 为通过实验得到的数据。该概率表示在实际的实验中,实验结果为数据D的概率,也被称为边缘概率,或显著性证据。
+- P(A)P(B)P(C) : 其中A,B,C是已知的某种条件,它们的概率是事先已知的,被称为先验概率。
+- P(A∣D) : 当实验数据为D时,该实验处于条件A下的概率,被称为后验概率。后验概率是用来修正先验概率的,在有了实验数据之后,可以修正A的概率。
+- P(D∣A) : 在条件A下,获得实验数据D的概率。此被称为似然。
+- P(A)P(A∣D) :即为 先验概率后验概率 ,被称为贝叶斯因子,表现了后验概率对先验概率的修正程度,也表现了推理对先验知识的支持程度。当贝叶斯因子>1时,表明推理支持先验知识,贝叶斯因子<1时,表明推理不支持先验因子。
+- 贝叶斯因子(支持度)与其极大值越接近,支持力度越强。
+- 贝叶斯因子的大小与后验概率的大小有关,即与实验获得的数据有关,不同的数据会获得不一样的后验概率,从而计算出不一样的贝叶斯因子。在数据量足够多的时候,由于[[大数定律]],会越来越接近真相。
+
+以机器学习视角
+在机器学习中,模型的参数被看作“因”,输入的数据被看作“果”。因为模型需要从数据中学习,确定这些参数,从而达到良好的拟合效果(即与输入数据之间的差距尽量合理地小)。所以机器学习的目的是利用已知的样本结果,推断出最有可能导致这些结果的参数值。
+最大似然估计
+似然(Likelihood)的理解
+以“瓜熟蒂落”为例,假设“瓜熟”是因,“蒂落”是果。但是瓜熟并不一定导致蒂落,可能有的瓜蒂特别顽强就是不落,而蒂落也有可能不是因为瓜熟,而是因为被熊孩子掰下来了。所以“瓜熟”和“蒂落”之间虽然存在一定的关联,但并非绝对的先后关系。也就是说,“瓜熟”时“蒂落”是存在一定概率的。
+代入到贝叶斯公式中:
+P(瓜熟) 是先验概率,作为因,瓜熟有自己的固有概率,这就是“先验”。
+P(瓜熟∣蒂落) 是后验概率,当观察到了“果”然后推算“因”的条件概率。
+P(蒂落∣瓜熟) 是公式中的“似然”,是由“因”而导致“果”的可能性。
+蒂落 被称为证据因子,P(蒂落) 是通过观察样本得出的。
+现在我们知道”瓜熟“时”蒂落“是一定概率的,现在瓜熟事件的概率是未知的,它由一些参数确定,蒂落事件的概率是从样本中观察到的,现在我们希望推断出最有可能导致蒂落的瓜熟事件的参数值。即我们需要使P(蒂落∣瓜熟) 最大,即似然最大,即由“因”而导致“果”的可能性最大。
+最大似然估计,即求参数使得似然最大。
+最大后验估计
+与上述的例子相似,如果求后验概率最大时的参数,这种方法就叫做最大后验估计。
+与最大似然估计相比,最大后验估计引入了先验概率。
+P(果∣因)=P(果)P(因∣果)P(因)
+