课程信息: 主页 Youtube
一. 指数分布族
在讲广义线性模型之前,我们需要先介绍一下什么是指数分布族(exponential family). 一类分布如果属于指数分布族,那么它就可以写成如下形式:
p(y;η)=b(y)exp(ηTT(y)−a(η))
其中η叫做natrual parameter, T(y)叫做sufficient statistic, a(η)叫做log partition function. 当我们选定T,a,b的时候,我们就得到了参数为η的分布族,不同的η会得到(属于这个分布族的)不同的分布。
现在证明Bernoulli分布和Gaussian分布都是属于指数分布族。
二. Bernoulli Distribution
先来看一下伯努利分布:
p(y;ϕ) =ϕy(1−ϕ)1−y=exp(log(ϕy(1−ϕ)1−y)=exp(log(ϕy)+log((1−ϕ)1−y))=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ)+log(1−ϕ))
其中,
η=log(1−ϕϕ).
可推出,
ϕ=1+e−η1
这里ϕ和sigmoid函数长得是有多像!(考虑一下上一篇中我们做出的假设)
将它与指数分布族的形式对应起来得:
T(y)=y,a(η)=−log(1−ϕ)=log(1+eη),b(y)=1.
三. Gaussian Distribution
再来看一下高斯分布。还记得之前我们通过概率的角度来解释最小二乘吗?当时我们有一个结论是,σ2的值不影响我们最终的代价函数。所以这里为了计算的方便,我们令σ2=1.
p(y;μ) =2π1exp(−2(y−μ2))=2π1exp(−21y2+yμ−21μ2)=2π1exp(−21y2)exp(yμ−21μ2)
将结果与指数分布族的形式对应得到:
η=μ,T(y)=y,b(y)=2π1exp(−21y2),a(η)=21μ2=21η2.
事实上,除了伯努利分布和高斯分布,有很多分布都是属于指数分布族. 具体可见张雨石的博客指数分布族部分.
四. 广义线性模型
在构造广义线性模型之前,我们需要对给定x的y的条件概率做出以下三个假设:
1.y∣x;θ∼指数分布族(η). 给定x和θ, y的分布服从参数为η的指数分布族中的某个分布,
2.给定x, 我们的目标是预测T(y)的期望,即E[T(y)∣x],
3.η和x成线性关系, 即η=θTx.
下面我们看看如何通过这三个假设推导出最小二乘模型和logistic模型.
五. 最小二乘模型
推导过程如下:
hθ(x) =E[y∣x;θ]=μ=η=θTx.
解释:
1.第一个等号因为假设2,
2.第二个等号因为y∣x;θ∼N(μ,σ2),它的期望就是μ,
3.第三个等号因为上面推导的高斯分布的指数分布族的形式,
4.第四个等号因为假设3.
六. Logistic模型
推导过程如下:
hθ(x) =E[y∣x;θ]=ϕ=1+e−η1=1+e−θTx1.
解释:
1.第一个等号因为假设2,
2.第二个等号因为y∣x;θ∼Bernoulli(ϕ),它的期望就是ϕ,
3.第三个等号因为上面推导的伯努利分布的指数分布族的形式,
4.第四个等号因为假设3.
七. Softmax Regression
多项式分布也属于指数分布族,由他推导出的广义线性模型可以解决多分类的问题,它是logistic模型的一个扩展。
设y∈{1,2,...,k}, 参数为:ϕ1,ϕ2,...,ϕk, P(y=i)=ϕi.这样写的话,其实我们的参数是冗余的,因为所有概率的和应该等于1. 所以有ϕk=1−(ϕ1+ϕ2+...+ϕk−1).
为了使多项式分布能写成指数分布族的形式,我们定义T(y)∈Rk−1:
这里我们再引入indicator function:
1(True)=1,1(False)=0
由此可得到:
(T(y))i=1{y=i}
下面我们就可以证明多项式分布是属于指数分布族,以下是推导过程:
其中:
由:
可做如下推导:
即:
ϕk=∑i=1keηi1
将上式再带回到(7)中可得:
这个函数就叫做softmax函数.
下面我们看如何推导出softmax regression:
首先我们有:
根据广义线性模型的三个假设,我们就得到了hθ(x):
log likelihood如下:

参考:
- 机器学习笔记-子实
- 牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4
- 斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归
- 斯坦福CS229机器学习课程笔记三:感知机、Softmax回归