Deep Learning
PAC
定义:
- C: 概念集合,每个概念c:X→Y是一个映射
- X:输入集合
- Y:输出集合
- H:假说集合
- D:输入集合的概率分布
- Z:X×Y
- S:样本集合,Z的子集
考虑binary classify,其对应的概念为c,这时候Y={0,1}。我们的目标是从H中找到与c误差最小的假说h。定义泛化误差为:
R(h)=Px∼D[h(x)≠c(x)]=Ex∼D[1h(x)≠c(x)]定义经验误差为:
ˆRS(h)=1mm∑i=11h(xi)≠c(xi)始终满足
Ex∼D[ˆRS(h)]=R(h)记n代表表示任意一个输入空间中元素所需的空间大小。记size(c)表示概念类C中需要最多空间表示的概念的需要的空间。
我们称概念类C是PAC-learnable,如果存在一个算法A,和一个多项式poly,满足对于任意ϵ>0以及δ>0,对于任意一个X上的概率分布D,以及任意目标概念c∈C,只要样本数量m≥poly(1/ϵ,1/δ,n,size(c)),就有:
PS∼Dm[R(hS)≤ϵ]≥1−δ进一步的如果A能在poly(1/ϵ,1/δ,n,size(c))时间复杂度内结束,那么认为C是可以被有效PAC-learnable的,并认为算法A是C的PAC-learnable算法。
有限假说集合一致情况
对于有限大小的假说集H,目标概念c∈H。且算法A能找到一个假说hS满足$\widehat{R}S(h_S)=0。那么对于任意\delta>0,一定满足\mathrm{P}{S\sim D^m}[R(h_S)\leq \epsilon]\geq 1-\delta$,只要
m≥1ϵln|H|δ有限假说集合不一致情况
之前讨论的h是在S上是完全一致的(0误差),但是实际上很多时候由于目标概念超出了我们假说的范畴,因此会存在一定的经验误差。
对于任意假说h:X→{0,1},由Hoeffding's inequality可以直接推出
PS∼Dm[|ˆRS(h)−R(h)|≥ϵ]≤2exp(−2mϵ2)继而可以推出对于任意δ>0,下面不等式拥有至少1−δ的置信度
R(h)≤ˆRS(h)+√12mlog2δ对于任意有限假说集合H,以及任意δ>0,都至少有1−δ置信度,使得不等式满足:
∀h∈H,R(h)≤ˆRS(h)+√12mln2|H|δ不可知PAC
上面提到的样本是X×Y的子集,但是有一种场景是一个样本的标签是概率分布而不是精确值。比如给定身高和体重,标签是性别。PAC学习在这种场景下的自然扩展称作不可知(agnostic)PAC。
泛化误差为:
R(h)=P(x,y)∼D[h(x)≠y]=E(x,y)∼D[h(x)≠y]称A是不可知PAC学习算法,如果存在一个多项式poly,对于任意ϵ>0以及δ>0,对于所有X×Y上的概率分布D,只要m≥poly(1/ϵ,1/δ,n,size(c)),就有:
PS∼Dm[R(hS)−minh∈HR(h)≤ϵ]≥1−δ如果A能在poly(1/ϵ,1/δ,n,size(c))实际复杂度内结束,那么称A是一个有效的不可知PAC学习算法。
定义贝叶斯误差为:
R∗=infhR(h)对于假说h,如果满足R(h)=R∗,那么称h为贝叶斯假说或贝叶斯分类器。
在确定的情况(只允许一个标签)下,满足$R^=0,但是在随机的情况(允许多个标签)下,R^\neq 0$,可以通过条件概率定义为:
∀x∈X,hBayers(x)=\argmaxy∈{0,1}P[y|x]对于给定的X×Y上的概率分布,定义在点x处的噪音为
noise(x)=min{P[0|x],P[1|x]}满足
E[noise(x)]=R∗对于点x,如果noise(x)接近12,那么这样的点称为噪音点,也是精确预判所会遇到的挑战。
Rademacher复杂度和VC维度
对于任意损失函数L:Y×Y→R,定义关联与H的损失函数损失函数族为:
G={g:(x,y)→L(h(x),y):h∈H}对于样本集合S=(z1,…,zm),G的Rademacher经验复杂度为
ˆRS(G)=Eσ[supg∈G1mm∑i=1σig(zi)]其中σ=(σ1,…,σm)T,其中σi是取值为{−1,+1}的均匀分布独立随机变量,称为Rademacher变量。记gS=(g(z1),…,g(zm))T,那么可以重写为
ˆRS(G)=Eσ[supg∈GgS⋅σm]Rademacher泛化复杂度定义如下
Rm(G)=ES∼Dm[ˆRS(G)]如果损失函数取值范围为{0,1},对于任意δ>0,下面不等式至少拥有1−δ/2的置信度:
E[g(z)]≤1mm∑i=1g(zi)+2Rm(G)+√12mln1δE[g(z)]≤1mm∑i=1g(zi)+2ˆRS(G)+3√12mln2δ如果Y={−1,1},且损失函数取值范围为{0,1},考虑SX是S在X上的投影,那么有:
ˆRS(G)=12ˆRSX(H)对于任意空间X上的分布D,对于任意δ>0,在样本S上对于任意h∈H,至少有1−δ的置信度
R(h)≤ˆRS(h)+Rm(H)+√12mln1δR(h)≤ˆRS(h)+ˆRS(H)+3√12mln2δgrowth函数
对于假说集H,growth函数定义为:
∀m∈N,∏H(m)=max{x1,…,xm}⊆X|{(h(x1),…,h(xm)):h∈H}|令G表示一个值域为{−1,+1}函数族,那么下面的不等式始终成立:
Rm(G)≤√2ln∏G(m)m可以通过growth函数来约束假说h的泛化误差:
R(h)≤ˆRS(h)+√2ln∏H(m)m+√ln1δ2mP[|R(h)−ˆRS(h)|>ϵ]≤4∏H(2m)exp(−mϵ28)VC-dimension
VC-dimension的定义为:
VCdim(H)=max{m:∏H(m)=2m}