Skip to main content

概率论基础知识

概率

tip

为什么机器学习要使用概率?

因为机器学习通常必须处理不确定量,有时也可能需要处理随机(非确定的)量。不确定性和随机性可能来自多个方面。

变量与随机变量

随机变量

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值 函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间 内收到的呼叫次数等,都是随机变量的实例。

tip

变量与随机变量有什么区别?

当变量取值为1时,变量就变成了随机变量,当随机变量的取值概率为1,随机变量就变成了变量

随机变量和概率分布的联系

一个随机变量只能表示一个可能的状态。概率分布描述的一簇随机变量每个可能的状态;

随机变量可以分为离散型随机变量和连续性随机变量, 相应的描述其概率分布的函数是:

  1. 概率质量函数:描述离散型随机变量的概率分布
  2. 概率密度函数:描述连续性随机变量的概率分布

概率质量函数

概率质量函数 (Probability Mass Function): 对于离散型变量, 我们先定义一个随机变量, 然后用 符号来说明它遵循的分布: xP(x)\mathrm{x} \sim P(\mathrm{x}), 函 数 PP 是随机变量 x\mathrm{x}PMF\mathrm{PMF}

例如, 考虑一个离散型 x\mathrm{x}kk 个不同的值, 我们可以假设 x\mathrm{x} 是均匀分布的 (也就是将它的每个值视为等可能的), 通过将它的 PMF\mathrm{PMF} 设为:

P(x=xi)=1kP\left(\mathrm{x}=x_{i}\right)=\frac{1}{k}

对于所有的 ii 都成立。

概率密度函数

当研究的对象是连续型时, 我们可以引入同样的概念。如果一个函数 pp 是概率密度函数 (Probability Density Function):

  • 分布满足非负性条件: xx,p(x)0\forall x \in \mathrm{x}, p(x) \geq 0
  • 分布满足归一化条件: p(x)dx=1\int_{-\infty}^{\infty} p(x) d x=1 例如在 (a,b)(a, b) 上的均匀分布:
    U(x;a,b)=1ab(x)baU(x ; a, b)=\frac{\mathbf{1}_{a b}(x)}{b-a}
    这里 1ab(x)1_{a b}(x) 表示在 (a,b)(a, b) 内为 1 , 否则为 0 。

累积分布函数

累积分布函数 (Cummulative Distribution Function) 表示对小于 xx 的概率的积分:

CDF(x)=xp(t)dt\operatorname{CDF}(x)=\int_{-\infty}^{x} p(t) d t

边缘概率 (Marginal Probability):如果我们知道了一组变量的联合概率分布, 但想要了解其中一个子集的概率分布。这种定义在子集上的概率 分布被称为边缘概率分布。

xx,P(x=x)=yP(x=x,y=y)\forall x \in \mathrm{x}, P(\mathrm{x}=x)=\sum_{y} P(\mathrm{x}=x, \mathrm{y}=y)

条件概率 (Conditional Probability):在很多情况下,我们感兴趣的是某个事件, 在给定其他事件发生时出现的概率。这种概率叫做条件概率。 我们将给定 x=x,y=y\mathrm{x}=x, \mathrm{y}=y 发生的条件概率记为 P(y=yx=x)P(\mathrm{y}=y \mid \mathrm{x}=x) 。这个条件概率可以通过下面的公式计算:

P(y=yx=x)=P(y=y,x=x)P(x=x)P(\mathrm{y}=y \mid \mathrm{x}=x)=\frac{P(\mathrm{y}=y, \mathrm{x}=x)}{P(\mathrm{x}=x)}

条件概率的链式法则 (Chain Rule of Conditional Probability): 任何多维随机变量的联合概率分布, 都可以分解成只有一个变量的条件概率 相乘的形式:

P(x1,,xn)=P(x1)i=2nP(xix1,,xi1)P\left(x_{1}, \ldots, x_{n}\right)=P\left(x_{1}\right) \prod_{i=2}^{n} P\left(x_{i} \mid x_{1}, \ldots, x_{i-1}\right)

独立性 (Independence): 两个随机变量 x\mathrm{x}y\mathrm{y}, 如果它们的概率分布可以表示成两个因子的乘积形式, 并且一个因子只包含 x\mathrm{x} 另一个因子只包含 y\mathrm{y}, 我们就称这两个随机变量是相互独立的:

xx,yy,p(x=x,y=y)=p(x=x)p(y=y)\forall x \in \mathrm{x}, y \in \mathrm{y}, p(\mathrm{x}=x, \mathrm{y}=y)=p(\mathrm{x}=x) p(\mathrm{y}=y)
tip

联合概率和边缘概率有什么区别?

联合概率是指多个条件同时发生的概率,而边缘概率是指某个时间发生的概率。两者可以相互转换, 比如当X和Y相互独立的时候有:

P(X=a,Y=b)=P(X=a)P(Y=b)P(X = a,Y = b) = P(X=a)P(Y=b)

随机变量的量度

期望 (Expectation): 函数 ff 关于概率分布 P(x)P(\mathrm{x})p(x)p(\mathrm{x}) 的期望表示为由概率分布产生 xx, 再计算 ff 作用到 xx 上后 f(x)f(x) 的平均值。对于离散型随机变量, 这可以通过求和得到:

ExP[f(x)]=xP(x)f(x)\mathbb{E}_{\mathrm{x} \sim P}[f(x)]=\sum_{x} \mathrm{P}(x) f(x)

对于连续型随机变量可以通过求积分得到:

Exp[f(x)]=P(x)f(x)dx\mathbb{E}_{\mathrm{x} \sim p}[f(x)]=\int P(x) f(x) d x

另外, 期望是线性的:

Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[f(x)]\mathbb{E}_{\mathbf{x}}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}_{\mathbf{x}}[f(x)]+\beta \mathbb{E}_{\mathbf{x}}[f(x)]

方差 (Variance): 衡量的是当我们对 xx 依据它的概率分布进行采样时, 随机变量 x\mathrm{x} 的函数值会呈现多大的差异, 描述采样得到的函数值在期望上 下的波动程度:

Var(f(x))=E[(f(x)E[f(x)])2]\operatorname{Var}(f(x))=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]

方差开平方即为标准差 (Standard Deviation)。

协方差 (Covariance): 用于衡量两组值之间的线性相关程度:

Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]\operatorname{Cov}(f(x), g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]

注意, 独立比协方差为0要求更强, 因为独立还排除了非线性的相关。

常用概率分布

伯努利分布

伯努利分布 (Bernoulli Distribution) 是单个二值随机变量的分布, 随机变量只有两种可能。它由一个参数 ϕ[0,1]\phi \in[0,1] 控制, ϕ\phi 给出了随机变量等 于 1 的概率:

P(x=1)=ϕP(x=0)=1ϕP(x=x)=ϕx(1ϕ)1x\begin{aligned} &P(\mathrm{x}=1)=\phi \\ &P(\mathrm{x}=0)=1-\phi \\ &P(\mathrm{x}=x)=\phi^{x}(1-\phi)^{1-x} \end{aligned}

表示一次试验的结果要么成功要么失败

tip

什么时候使用可以使用伯努利分布?

伯努利分布适合对离散型的随机变量进行建模,比如投骰子这样的事件就可以使用伯努利分布来对这个时间建模

范畴分布(分类分布)

范畴分布 (Multinoulli Distribution) 是指在具有 kk 个不同值的单个离散型随机变量上的分布:

p(x=x)=iϕixip(\mathrm{x}=x)=\prod_{i} \phi_{i}^{x_{i}}

例如每次试验的结果就可以记为一个 kk 维的向量, 只有此次试验的结果对应的维度记为 1 , 其他记为 0 。

高斯分布(正态分布)

高斯分布 (Gaussian Distribution) 或正态分布 (Normal Distribution) 形式如下:

N(x;μ,σ2)=12πσ2exp(12σ2(xμ)2)N\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right)

有时也会用 β=1σ2\beta=\frac{1}{\sigma^{2}} 表示分布的精度 (precision)。中心极限定理 (Central Limit Theorem) 认为, 大量的独立随机变量的和近似于一个正态分布, 因此可以认为噪声是属于正态分布的

from scipy.stats import nrom
fig, axes = plt.subplots(1,2,figsize=(10,3))
mu, sigma = 0,1
X = norm(mu,sigma)
plot_distribution(X,axes=axes)

tip

什么时候采用正态分布?

在缺乏分布的先验知识,不知道选择何种形式,默认选择正态分布总不会出错的,因为:

  1. 中心极限定理告诉我们,很多独立随机变量都近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的噪声,即使该系统可以被结构化分解
  2. 正态分布是具有相同方差的所有概率分布中,不确定性最大的分布,换句话说,正在分布对模型加入的先验知识最少的分布

指数分布

指数分布 (Exponential Distribution) 形式如下:

p(x;λ)=λ1x0exp(λx)p(x ; \lambda)=\lambda 1_{x \geq 0} \exp (-\lambda x)

其中 λ>0\lambda>0 是分布的一个参数, 常被称为率参数 (Rate Parameter);

tip

指数分布有什么特点?

x=0x=0 处获得最高的概率

拉普拉斯分布

拉普拉斯分布(Laplace Distribution)形式如下:

Laplace(x;μ,γ)=12γexp(xμγ)\operatorname{Laplace}(x ; \mu, \gamma)=\frac{1}{2 \gamma} \exp \left(-\frac{|x-\mu|}{\gamma}\right)

这也是可以在一个点获得比较高的概率的分布。

一些概率论面试问题

1、变量与随机变量有什么区别?

2、随机变量与概率分布有什么联系?

3、联合概率与边缘概率有什么区别?有什么联系?

4、常见的概率分布有哪些?有什么应用场景?请举例说明

5、大数定律和中心极限定理的意义与作用(切比雪夫大数定律)

6、正态分布的和还是正态分布吗,正态分布性质与独立同分布)★

7、什么是假设和检验?

8、数学期望和方差?

9、独立和不相关的区别?

10、概率密度函数?

11、举几个泊松分布的例子

12、说一下全概率公式和贝叶斯公式 ★

13、解释下相关系数、协方差、相关系数或协方差为0的时候能否说明两个分布无关?

14、若干正态分布相加、相乘后得到的分布分别是什么?

15、假如有一枚不均匀的硬币,抛正面的几率是p,抛反面是1-p,请问如何做才能得出1/2?★

16、机器学习为什么要使用概率?

参考

[1][https://github.com/MingchaoZhu/DeepLearning](https://github.com/MingchaoZhu/DeepLearning)