西瓜书高斯混合模型推导

对于西瓜书第九章聚类中的高斯混合聚类的推导。

GMM 认为数据是从几个GSM中生成出来的,即:001k需要事先确定好,就像K-means中的K一样。αi是权值因子。其中的任意一个高斯分布 002 叫作这个模型的一个混合成分。

这里有个问题:为什么我们要假设数据是由若干个高斯分布组合而成的,而不假设是其他分布呢

实际上不管是什么分布,只K取得足够大,这个XX Mixture Model就会变得足够复杂,就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能,所GMM被广泛地应用。

有N个数据点,服从某种分布Pm(x;θ),我们想找到一组参数θ,使得生成这些数据点的概率最大,这个概率就是:

003

参数估计我们应该会想到使用极大似然估计,将上式对 𝜇i 𝛼𝑖 ∑𝑖 分别求偏导 再令偏导数=0可以解出𝜇i 𝛼𝑖 ∑𝑖但是实际上是无法求解的,ln中的求和符号无法消除(似然函数中样本不属于的类根本就不会出现在ln中)由于 Ln 函数里的求和项,我们无法直接求得闭式解。


令随机变量 𝑍j∈{1,2,……,𝑘}表示X𝑗的高斯混合成分,其取值显然未知,因为我们并不知道样本的标签,但是显然𝑍j的先验概率P(𝑍𝑗=𝑖)对应于𝛼_i(i=1,2,……,k)根据贝叶斯定理,Zj的后验分布为:

004

𝑃𝑚 (𝑍𝑗=𝑖│𝑥𝑗 ) 给出了样本𝑥𝑗由第i个高斯混合成分生成的后验概率,为了方便叙述,将其简记为 𝛾j𝑖(i=1,2,……,k)显然对于样本𝑥𝑗的簇标记 λ _j=𝑎𝑟𝑔𝑚𝑎𝑥 〖(𝛾〗_j𝑖) (i=1,2,……,k) 得(9.31)
对于 x_𝑗 我们已经表示出它的簇标记为 λ j 那么可以用一个范数为k的向量描述𝑥𝑗的高斯混合成分记作 Z_𝑗=(0,0,0,0,..,1,0,0) “λ” j的位置为1 其他为0,暂且将Z𝑗当作隐变量。此时我们已经可以继续刚才无法继续的求偏导过程:

005-1
005-2
005-3

对于混合系数 𝛼_i 除了要满足最大化LL(D)还需要满足约束:

006

所以考虑LL(D)的拉格朗日形式:

007

9.36式对𝛼_i求偏导=0:

008-1
008-2