高斯分布
极大似然估计
本小节的主要目的是从频率派的角度使用极大似然估计, 通过观察到数据, 是观察到的数据出现的 概率最大化, 来对高斯分布的参数进行估计。并且分析了高斯分布的参数, μ,σ2 的无偏性和有偏性。 其中, μ 是关于参数的无偏估计, 而 σ 是有偏估计。
数据矩阵为:(这样可以保证每一行为一个数据点)
X=(x1,x2,⋯,xN)T=⎝⎛x1Tx2T⋮xNT⎠⎞=⎝⎛x11x21⋮xN1x12x32⋮xN2……⋱…x1px2p⋮xNp⎠⎞N×P 在数据矩阵的基础上, 有 xi∈R,xi∼N(μ,Σ), 那么参数为 θ=N(μ,Σ) 。
求解目的
首先对于单变量的高斯分布 N(μ,σ2), 概率密度函数为:
p(x)=2πσ1exp{−2σ2(x−μ)2} 然而对于多变量的高斯分布 N(μ,Σ), 概率密度函数为:
p(X)=2π2d2d∣∣211exp{−21(X−μ)TΣ−1(X−μ)} 我们希望通过观察到的数据来计算参数 θ 的值, 那么我们使用极大似然估计的优化目标为 θMLE= argmaxθp(x∣θ) 。于是我们可以转化为 θMLE=argmaxθlogp(x∣θ) 。那么, 计算公式可以化简为:
logp(x∣θ)=logi=1∏Np(xi∣θ)=i=1∑Nlogp(xi∣θ)=i=1∑Nlog2π1+logσ1−2σ2(x−μ)2 极大似然求解 μ 和 σ2
验证 参数无偏性
首先需要明确什么是无偏估计, 所谓无偏估计也就是, E(x^)=x 。那么利用这个性质我们就可以 很方便的判断一个估计是否为无偏估计。
验证 μMLE 的无偏性
E[μMLE]=E[N1i=1∑Nxi]=N1i=1∑NE[xi]=N1Nμ=μ 根据上述的推导, 我们可以得出 μMLE 是无偏估计。
验证 $ \sigma_{M L E}^{2} $ 的无偏性
E[σMLE2]=E[N1i=1∑N(xi−μMLE)2]=E[N1i=1∑N(xi2−2μMLExi+μMLE2)]=E[N1i=1∑N(xi2−μMLE2)]=E[N1i=1∑N(xi2−μ2)−(μMLE2−μ2)]=E[N1i=1∑N(xi2−μ2)]−E[(μMLE2−μ2)]=E⎣⎡N1i=1∑N⎝⎛xi2−(N1i=1∑Nxi)2⎠⎞⎦⎤−E[(μMLE2−μ2)]=N1i=1∑N(E[xi2]−E[x]2)−E[(μMLE2−μ2)]=σ2−(E[μMLE2]−E[μ2])=σ2−(E[μMLE2]−E[E[μMLE]2])=σ2−(E[μMLE2]−E[μMLE]2]=σ2−Var[μMLE]=σ2−Var[N1i=1∑Nxi]=σ2−N21Var[i=1∑Nxi]=σ2−N21i=1∑NVar[xi]=σ2−N21Nσ2=NN−1σ2 有上述推导我们可以得出, σMLE2 为有偏估计量, 而且和真实值比较偏小。为什么会造成这个结果呢? 主要原因是出在 μMLE 上, 因为我们在求 σMLE2 时使用的是 μMLE 而不是 μ∘ 而 μMLE 是拟合 数据得到的, 所以波动的角度讲, 肯定会比使用真实的 μ 算出来要小。所以在高斯分布中, 利用极大 似然估计得到的 σMLE2 的值, 是比真实值偏小的有偏估计。