15-P-PCA从概率角度思考PCA主成分分析

最新推荐文章于 2024-05-03 05:19:14 发布

取个名字真难呐

最新推荐文章于 2024-05-03 05:19:14 发布

阅读量1.5k

点赞数 4

分类专栏： pytorch

本文链接： https://blog.csdn.net/scar2016/article/details/117113779

版权

pytorch 专栏收录该内容

148 篇文章 28 订阅

订阅专栏

文章目录

1.数据定义
- 1.1 GMM与P-PCA区别
2.模型图
3.模型推断

1.数据定义

我们知道主成分分析PCA主要是将原始样本数据X从p维度降到q维，是对原始特征空间的重构。我们假设Z是重构空间，X是原始空间；
$X\in \mathbb{R}^p,Z \in \mathbb{R}^q,q<p;z=latent-variable(隐变量)；x=observed-data(观测数据)；\tag{1}$
我们给z一个先验 $\sim N(0_q，I_q);假设X与Z满足线性关系X=WZ+\mu+\epsilon;$
$噪声\epsilon\sim N(0,\sigma^2I_p)；噪声\epsilon 独立于Z;$
线性高斯模型：
1.隐变量z和观测量x是线性关系；
2.噪声服从高斯分布， $\sigma^2I_p是对角线值均为\sigma^2的对角矩阵；这个矩阵为各向同性矩阵$
P-PCA:
infernece:p(z|x)
learning: $w,\mu,\sigma^2$ —>EM算法

1.1 GMM与P-PCA区别

对于GMM来说，隐变量Z是离散的；对于P-PCA来说，隐变量Z是连续的

2.模型图

在高斯分布图中取一点Z，得到P(Z),再在线性变换中得到X=WZ
在线性直线上得到WZ+μ+ε;此时的数值是以wz+μ为中心，以 $\sigma^2为半径的圆，不断的采集Z，就可以得到不同的各向同性圆$
P(X)就是以w为轴方向的各向分布圆，如图所示；

3.模型推断

3.1 求P(X|Z)分布

$\because z \sim N(0,I)；X=WZ+\mu+\epsilon；\epsilon \sim N(0,\sigma^2I),\epsilon \perp z;$

$\therefore E(X|Z)=E(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=WZ+\mu;(注：此时Z是已知常量)$

$\therefore D(X|Z)=D(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=0+\sigma^2I;$

$P(X|Z)\sim N(WZ+\mu,\sigma^2I)\tag{2}$

3.2 求P(X)分布

$\therefore E(X)=E(WZ+\mu+\epsilon)=WE(Z)+\mu+E(\epsilon)=0+\mu+0=\mu(注：此时Z是自变量)$

$\therefore D(X)=D(WZ+\mu+\epsilon)=WD(Z)W^T+0+D(\epsilon)=WIW^T+\sigma^2I(注：此时Z是自变量)$
$P(X)\sim N(\mu,WIW^T+\sigma^2I) \tag{3}$

3.3引用高斯分布中，已知联合概率求条件概率公式

链接如下： 14-高斯分布基础知识
$\begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {4}$
$求边缘概率p(x_a),条件概率p(x_b|x_a)$
构造相关变量：
$x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{5}$
$\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{6}$
$\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{7}$
$x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{8}$
$\mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{9}$
$\mathbb{D}[x_{b}|x_a]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{10}$
$结论：p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{11}$

3.4构造相关函数

3.4.1 令M为X,Z组合函数

$\begin{pmatrix} x\\\\z \end{pmatrix};P(x)\sim N(\mu,WIW^T+\sigma^2I);P(z) \sim N(0,I) \tag{12}$
$\begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu_x\\\\\ \mu_z \end{pmatrix}, \begin{pmatrix} \Sigma_{xx}&\Sigma_{xz}\\\Sigma_{zx}&\Sigma_{zz} \end{pmatrix}) \tag{13}$
$\Sigma_{xx}=D(x)=WIW^T+\sigma^2I;\Sigma_{zz}=D(Z)=I;\Sigma_{xz}=Cov(xz)\tag{14}$ \

3.4.2求COV(X,Z)

$Cov(xz)=E[(x-\mu_x)(z-\mu_z)^T]$

$=E[(x-\mu)(z)^T]$

$=E[(wz+\mu+\epsilon-\mu)(z)^T]$

$=E[(wz+\epsilon)z^T]$

$=E[(wz)z^T+\epsilon z^T]$

$=wE[z^2]+E[\epsilon]E[ z^T]$

$注：E(z^2)=D(z)+[E(Z)]^2=I;E(\epsilon)=0$

$=wE[z^2]+E[\epsilon]E[ z^T]$

$= w I = w$
$Cov(X,Z)=W\tag{15}$
$\begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu\\\\\ \ 0 \end{pmatrix}, \begin{pmatrix} WIW^T+\sigma^2I&W\\W^T&I \end{pmatrix}) \tag{16}$
由3.4.1结论可得：
$结论：p(z|x)\sim N[\mu_{z}+\Sigma_{zx}\Sigma_{xx}^{-1}(x-\mu_x),\Sigma_{zz}-\Sigma_{zx}\Sigma_{xx}^{-1}\Sigma_{xz}] \tag{17}$
$\mathbb{E}(Z|X)=W^T(WIW^T+\sigma^2I)^{-1}(X-\mu) \tag{18}$
$\mathbb{D}(Z|X)=I-W^T(WIW^T+\sigma^2I)^{-1}W \tag{19}$