15-P-PCA从概率角度思考PCA主成分分析
文章目录
- 1.数据定义
- 1.1 GMM与P-PCA区别
- 2.模型图
- 3.模型推断
- 3.1 求P(X|Z)分布
- 3.2 求P(X)分布
- 3.3引用高斯分布中,已知联合概率求条件概率公式
- 3.4构造相关函数
- 3.4.1 令M为X,Z组合函数
- 3.4.2求COV(X,Z)
- 3.5结论
1.数据定义
我们知道主成分分析PCA主要是将原始样本数据X从p维度降到q维,是对原始特征空间的重构。我们假设Z是重构空间,X是原始空间;
X
∈
R
p
,
Z
∈
R
q
,
q
<
p
;
z
=
l
a
t
e
n
t
−
v
a
r
i
a
b
l
e
(
隐
变
量
)
;
x
=
o
b
s
e
r
v
e
d
−
d
a
t
a
(
观
测
数
据
)
;
(1)
X\in \mathbb{R}^p,Z \in \mathbb{R}^q,q<p;z=latent-variable(隐变量);x=observed-data(观测数据);\tag{1}
X∈Rp,Z∈Rq,q<p;z=latent−variable(隐变量);x=observed−data(观测数据);(1)
我们给z一个先验
Z
∼
N
(
0
q
,
I
q
)
;
假
设
X
与
Z
满
足
线
性
关
系
X
=
W
Z
+
μ
+
ϵ
;
Z \sim N(0_q,I_q);假设X与Z满足线性关系X=WZ+\mu+\epsilon;
Z∼N(0q,Iq);假设X与Z满足线性关系X=WZ+μ+ϵ;
噪
声
ϵ
∼
N
(
0
,
σ
2
I
p
)
;
噪
声
ϵ
独
立
于
Z
;
噪声\epsilon\sim N(0,\sigma^2I_p);噪声\epsilon 独立于Z;
噪声ϵ∼N(0,σ2Ip);噪声ϵ独立于Z;
线性高斯模型:
1.隐变量z和观测量x是线性关系;
2.噪声服从高斯分布,
σ
2
I
p
是
对
角
线
值
均
为
σ
2
的
对
角
矩
阵
;
这
个
矩
阵
为
各
向
同
性
矩
阵
\sigma^2I_p是对角线值均为\sigma^2的对角矩阵;这个矩阵为各向同性矩阵
σ2Ip是对角线值均为σ2的对角矩阵;这个矩阵为各向同性矩阵
P-PCA:
infernece:p(z|x)
learning:
w
,
μ
,
σ
2
w,\mu,\sigma^2
w,μ,σ2—>EM算法
1.1 GMM与P-PCA区别
对于GMM来说,隐变量Z是离散的;对于P-PCA来说,隐变量Z是连续的
2.模型图
- 在高斯分布图中取一点Z,得到P(Z),再在线性变换中得到X=WZ
- 在线性直线上得到WZ+μ+ε;此时的数值是以wz+μ为中心,以 σ 2 为 半 径 的 圆 , 不 断 的 采 集 Z , 就 可 以 得 到 不 同 的 各 向 同 性 圆 \sigma^2为半径的圆,不断的采集Z,就可以得到不同的各向同性圆 σ2为半径的圆,不断的采集Z,就可以得到不同的各向同性圆
- P(X)就是以w为轴方向的各向分布圆,如图所示;
3.模型推断
3.1 求P(X|Z)分布
∵ z ∼ N ( 0 , I ) ; X = W Z + μ + ϵ ; ϵ ∼ N ( 0 , σ 2 I ) , ϵ ⊥ z ; \because z \sim N(0,I);X=WZ+\mu+\epsilon;\epsilon \sim N(0,\sigma^2I),\epsilon \perp z; ∵z∼N(0,I);X=WZ+μ+ϵ;ϵ∼N(0,σ2I),ϵ⊥z;
∴ E ( X ∣ Z ) = E ( W Z + μ + ϵ ) = W Z + μ + E ( ϵ ) = W Z + μ ; ( 注 : 此 时 Z 是 已 知 常 量 ) \therefore E(X|Z)=E(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=WZ+\mu;(注:此时Z是已知常量) ∴E(X∣Z)=E(WZ+μ+ϵ)=WZ+μ+E(ϵ)=WZ+μ;(注:此时Z是已知常量)
∴ D ( X ∣ Z ) = D ( W Z + μ + ϵ ) = W Z + μ + E ( ϵ ) = 0 + σ 2 I ; \therefore D(X|Z)=D(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=0+\sigma^2I; ∴D(X∣Z)=D(WZ+μ+ϵ)=WZ+μ+E(ϵ)=0+σ2I;
P ( X ∣ Z ) ∼ N ( W Z + μ , σ 2 I ) (2) P(X|Z)\sim N(WZ+\mu,\sigma^2I)\tag{2} P(X∣Z)∼N(WZ+μ,σ2I)(2)
3.2 求P(X)分布
∴ E ( X ) = E ( W Z + μ + ϵ ) = W E ( Z ) + μ + E ( ϵ ) = 0 + μ + 0 = μ ( 注 : 此 时 Z 是 自 变 量 ) \therefore E(X)=E(WZ+\mu+\epsilon)=WE(Z)+\mu+E(\epsilon)=0+\mu+0=\mu(注:此时Z是自变量) ∴E(X)=E(WZ+μ+ϵ)=WE(Z)+μ+E(ϵ)=0+μ+0=μ(注:此时Z是自变量)
∴
D
(
X
)
=
D
(
W
Z
+
μ
+
ϵ
)
=
W
D
(
Z
)
W
T
+
0
+
D
(
ϵ
)
=
W
I
W
T
+
σ
2
I
(
注
:
此
时
Z
是
自
变
量
)
\therefore D(X)=D(WZ+\mu+\epsilon)=WD(Z)W^T+0+D(\epsilon)=WIW^T+\sigma^2I(注:此时Z是自变量)
∴D(X)=D(WZ+μ+ϵ)=WD(Z)WT+0+D(ϵ)=WIWT+σ2I(注:此时Z是自变量)
P
(
X
)
∼
N
(
μ
,
W
I
W
T
+
σ
2
I
)
(3)
P(X)\sim N(\mu,WIW^T+\sigma^2I) \tag{3}
P(X)∼N(μ,WIWT+σ2I)(3)
3.3引用高斯分布中,已知联合概率求条件概率公式
链接如下: 14-高斯分布基础知识
已
知
:
X
=
(
x
a
x
b
)
;
m
+
n
=
p
;
μ
=
(
μ
a
μ
b
)
;
Σ
=
(
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
)
;
Σ
a
b
=
Σ
b
a
T
(4)
已知:X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {4}
已知:X=⎝⎛xaxb⎠⎞;m+n=p;μ=⎝⎛μaμb⎠⎞;Σ=(ΣaaΣbaΣabΣbb);Σab=ΣbaT(4)
求
边
缘
概
率
p
(
x
a
)
,
条
件
概
率
p
(
x
b
∣
x
a
)
求边缘概率p(x_a),条件概率p(x_b|x_a)
求边缘概率p(xa),条件概率p(xb∣xa)
构造相关变量:
x
b
⋅
a
=
x
b
−
Σ
b
a
Σ
a
a
−
1
x
a
(5)
x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{5}
xb⋅a=xb−ΣbaΣaa−1xa(5)
μ
b
⋅
a
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
(6)
\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{6}
μb⋅a=μb−ΣbaΣaa−1μa(6)
Σ
b
b
⋅
a
=
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
(7)
\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{7}
Σbb⋅a=Σbb−ΣbaΣaa−1Σab(7)
x
b
⋅
a
∼
N
(
μ
b
⋅
a
,
Σ
b
b
⋅
a
)
(8)
x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{8}
xb⋅a∼N(μb⋅a,Σbb⋅a)(8)
E
[
x
b
∣
x
a
]
=
μ
b
+
Σ
b
a
Σ
a
a
−
1
(
x
a
−
μ
a
)
(9)
\mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{9}
E[xb∣xa]=μb+ΣbaΣaa−1(xa−μa)(9)
D
[
x
b
∣
x
a
]
=
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
(10)
\mathbb{D}[x_{b}|x_a]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{10}
D[xb∣xa]=Σbb−ΣbaΣaa−1Σab(10)
结
论
:
p
(
x
b
∣
x
a
)
∼
N
[
μ
b
+
Σ
b
a
Σ
a
a
−
1
(
x
a
−
μ
a
)
,
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
]
(11)
结论:p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{11}
结论:p(xb∣xa)∼N[μb+ΣbaΣaa−1(xa−μa),Σbb−ΣbaΣaa−1Σab](11)
3.4构造相关函数
3.4.1 令M为X,Z组合函数
M
=
(
x
z
)
;
P
(
x
)
∼
N
(
μ
,
W
I
W
T
+
σ
2
I
)
;
P
(
z
)
∼
N
(
0
,
I
)
(12)
M= \begin{pmatrix} x\\\\z \end{pmatrix};P(x)\sim N(\mu,WIW^T+\sigma^2I);P(z) \sim N(0,I) \tag{12}
M=⎝⎛xz⎠⎞;P(x)∼N(μ,WIWT+σ2I);P(z)∼N(0,I)(12)
M
=
(
x
z
)
∼
N
(
(
μ
x
μ
z
)
,
(
Σ
x
x
Σ
x
z
Σ
z
x
Σ
z
z
)
)
(13)
M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu_x\\\\\ \mu_z \end{pmatrix}, \begin{pmatrix} \Sigma_{xx}&\Sigma_{xz}\\\Sigma_{zx}&\Sigma_{zz} \end{pmatrix}) \tag{13}
M=⎝⎛xz⎠⎞∼N(⎝⎛μx μz⎠⎞,(ΣxxΣzxΣxzΣzz))(13)
Σ
x
x
=
D
(
x
)
=
W
I
W
T
+
σ
2
I
;
Σ
z
z
=
D
(
Z
)
=
I
;
Σ
x
z
=
C
o
v
(
x
z
)
(14)
\Sigma_{xx}=D(x)=WIW^T+\sigma^2I;\Sigma_{zz}=D(Z)=I;\Sigma_{xz}=Cov(xz)\tag{14}
Σxx=D(x)=WIWT+σ2I;Σzz=D(Z)=I;Σxz=Cov(xz)(14)\
3.4.2求COV(X,Z)
C o v ( x z ) = E [ ( x − μ x ) ( z − μ z ) T ] Cov(xz)=E[(x-\mu_x)(z-\mu_z)^T] Cov(xz)=E[(x−μx)(z−μz)T]
= E [ ( x − μ ) ( z ) T ] =E[(x-\mu)(z)^T] =E[(x−μ)(z)T]
= E [ ( w z + μ + ϵ − μ ) ( z ) T ] =E[(wz+\mu+\epsilon-\mu)(z)^T] =E[(wz+μ+ϵ−μ)(z)T]
= E [ ( w z + ϵ ) z T ] =E[(wz+\epsilon)z^T] =E[(wz+ϵ)zT]
= E [ ( w z ) z T + ϵ z T ] =E[(wz)z^T+\epsilon z^T] =E[(wz)zT+ϵzT]
= E [ ( w z ) z T + ϵ z T ] =E[(wz)z^T+\epsilon z^T] =E[(wz)zT+ϵzT]
= w E [ z 2 ] + E [ ϵ ] E [ z T ] =wE[z^2]+E[\epsilon]E[ z^T] =wE[z2]+E[ϵ]E[zT]
注 : E ( z 2 ) = D ( z ) + [ E ( Z ) ] 2 = I ; E ( ϵ ) = 0 注:E(z^2)=D(z)+[E(Z)]^2=I;E(\epsilon)=0 注:E(z2)=D(z)+[E(Z)]2=I;E(ϵ)=0
= w E [ z 2 ] + E [ ϵ ] E [ z T ] =wE[z^2]+E[\epsilon]E[ z^T] =wE[z2]+E[ϵ]E[zT]
=
w
I
=
w
=wI=w
=wI=w
C
o
v
(
X
,
Z
)
=
W
(15)
Cov(X,Z)=W\tag{15}
Cov(X,Z)=W(15)
结
论
:
M
=
(
x
z
)
∼
N
(
(
μ
0
)
,
(
W
I
W
T
+
σ
2
I
W
W
T
I
)
)
(16)
结论:M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu\\\\\ \ 0 \end{pmatrix}, \begin{pmatrix} WIW^T+\sigma^2I&W\\W^T&I \end{pmatrix}) \tag{16}
结论:M=⎝⎛xz⎠⎞∼N(⎝⎛μ 0⎠⎞,(WIWT+σ2IWTWI))(16)
由3.4.1结论可得:
结
论
:
p
(
z
∣
x
)
∼
N
[
μ
z
+
Σ
z
x
Σ
x
x
−
1
(
x
−
μ
x
)
,
Σ
z
z
−
Σ
z
x
Σ
x
x
−
1
Σ
x
z
]
(17)
结论:p(z|x)\sim N[\mu_{z}+\Sigma_{zx}\Sigma_{xx}^{-1}(x-\mu_x),\Sigma_{zz}-\Sigma_{zx}\Sigma_{xx}^{-1}\Sigma_{xz}] \tag{17}
结论:p(z∣x)∼N[μz+ΣzxΣxx−1(x−μx),Σzz−ΣzxΣxx−1Σxz](17)
E
(
Z
∣
X
)
=
W
T
(
W
I
W
T
+
σ
2
I
)
−
1
(
X
−
μ
)
(18)
\mathbb{E}(Z|X)=W^T(WIW^T+\sigma^2I)^{-1}(X-\mu) \tag{18}
E(Z∣X)=WT(WIWT+σ2I)−1(X−μ)(18)
D
(
Z
∣
X
)
=
I
−
W
T
(
W
I
W
T
+
σ
2
I
)
−
1
W
(19)
\mathbb{D}(Z|X)=I-W^T(WIW^T+\sigma^2I)^{-1}W \tag{19}
D(Z∣X)=I−WT(WIWT+σ2I)−1W(19)
3.5结论
结 果 : p ( z ∣ x ) ∼ N [ W T ( W I W T + σ 2 I ) − 1 ( X − μ ) , I − W T ( W I W T + σ 2 I ) − 1 W ] (20) 结果:p(z|x)\sim N[W^T(WIW^T+\sigma^2I)^{-1}(X-\mu),I-W^T(WIW^T+\sigma^2I)^{-1}W] \tag{20} 结果:p(z∣x)∼N[WT(WIWT+σ2I)−1(X−μ),I−WT(WIWT+σ2I)−1W](20)
码农阿豪@新空间代码工作室: 读完这篇博客后真是受益匪浅,作者的分析条理清晰、见解独到,非常感谢分享!希望能一起探讨更多技术话题
yumi-9: 我也是这样的 为什么还是显示找不到呢
取个名字真难呐: 个人感觉老教授讲得宽泛了,横跨很多知识点,不适合入门用。需要配合其他视频一起食用
uglyBreeze: 为了数据多呗,如果随机指定说不定指导最后一个位置了,那整个语料库就生成0条样本,还训个啥
征途黯然.: The description of 线性代数机器学习P11方程Axb求解研究 is very vivid and has given me a deeper insight. I hope to see more content about 线性代数机器学习P11方程Axb求解研究 in the future!