Deep Learning

Published: by Creative Commons Licence

  • Tags:

PAC

定义:

  • C: 概念集合,每个概念c:XY是一个映射
  • X:输入集合
  • Y:输出集合
  • H:假说集合
  • D:输入集合的概率分布
  • ZX×Y
  • S:样本集合,Z的子集

考虑binary classify,其对应的概念为c,这时候Y={0,1}。我们的目标是从H中找到与c误差最小的假说h。定义泛化误差为:

R(h)=PxD[h(x)c(x)]=ExD[1h(x)c(x)]

定义经验误差为:

ˆRS(h)=1mmi=11h(xi)c(xi)

始终满足

ExD[ˆRS(h)]=R(h)

n代表表示任意一个输入空间中元素所需的空间大小。记size(c)表示概念类C中需要最多空间表示的概念的需要的空间。

我们称概念类C是PAC-learnable,如果存在一个算法A,和一个多项式poly,满足对于任意ϵ>0以及δ>0,对于任意一个X上的概率分布D,以及任意目标概念cC,只要样本数量mpoly(1/ϵ,1/δ,n,size(c)),就有:

PSDm[R(hS)ϵ]1δ

进一步的如果A能在poly(1/ϵ,1/δ,n,size(c))时间复杂度内结束,那么认为C是可以被有效PAC-learnable的,并认为算法AC的PAC-learnable算法。

有限假说集合一致情况

对于有限大小的假说集H,目标概念cH。且算法A能找到一个假说hS满足$\widehat{R}S(h_S)=0\delta>0\mathrm{P}{S\sim D^m}[R(h_S)\leq \epsilon]\geq 1-\delta$,只要

m1ϵln|H|δ

有限假说集合不一致情况

之前讨论的h是在S上是完全一致的(0误差),但是实际上很多时候由于目标概念超出了我们假说的范畴,因此会存在一定的经验误差。

对于任意假说h:X{0,1},由Hoeffding's inequality可以直接推出

PSDm[|ˆRS(h)R(h)|ϵ]2exp(2mϵ2)

继而可以推出对于任意δ>0,下面不等式拥有至少1δ的置信度

R(h)ˆRS(h)+12mlog2δ

对于任意有限假说集合H,以及任意δ>0,都至少有1δ置信度,使得不等式满足:

hH,R(h)ˆRS(h)+12mln2|H|δ

不可知PAC

上面提到的样本是X×Y的子集,但是有一种场景是一个样本的标签是概率分布而不是精确值。比如给定身高和体重,标签是性别。PAC学习在这种场景下的自然扩展称作不可知(agnostic)PAC。

泛化误差为:

R(h)=P(x,y)D[h(x)y]=E(x,y)D[h(x)y]

A是不可知PAC学习算法,如果存在一个多项式poly,对于任意ϵ>0以及δ>0,对于所有X×Y上的概率分布D,只要mpoly(1/ϵ,1/δ,n,size(c)),就有:

PSDm[R(hS)minhHR(h)ϵ]1δ

如果A能在poly(1/ϵ,1/δ,n,size(c))实际复杂度内结束,那么称A是一个有效的不可知PAC学习算法。

定义贝叶斯误差为:

R=infhR(h)

对于假说h,如果满足R(h)=R,那么称h为贝叶斯假说或贝叶斯分类器。

在确定的情况(只允许一个标签)下,满足$R^=0R^\neq 0$,可以通过条件概率定义为:

xX,hBayers(x)=\argmaxy{0,1}P[y|x]

对于给定的X×Y上的概率分布,定义在点x处的噪音为

noise(x)=min{P[0|x],P[1|x]}

满足

E[noise(x)]=R

对于点x,如果noise(x)接近12,那么这样的点称为噪音点,也是精确预判所会遇到的挑战。

Rademacher复杂度和VC维度

对于任意损失函数L:Y×YR,定义关联与H的损失函数损失函数族为:

G={g:(x,y)L(h(x),y):hH}

对于样本集合S=(z1,,zm)G的Rademacher经验复杂度为

ˆRS(G)=Eσ[supgG1mmi=1σig(zi)]

其中σ=(σ1,,σm)T,其中σi是取值为{1,+1}的均匀分布独立随机变量,称为Rademacher变量。记gS=(g(z1),,g(zm))T,那么可以重写为

ˆRS(G)=Eσ[supgGgSσm]

Rademacher泛化复杂度定义如下

Rm(G)=ESDm[ˆRS(G)]

如果损失函数取值范围为{0,1},对于任意δ>0,下面不等式至少拥有1δ/2的置信度:

E[g(z)]1mmi=1g(zi)+2Rm(G)+12mln1δE[g(z)]1mmi=1g(zi)+2ˆRS(G)+312mln2δ

如果Y={1,1},且损失函数取值范围为{0,1},考虑SXSX上的投影,那么有:

ˆRS(G)=12ˆRSX(H)

对于任意空间X上的分布D,对于任意δ>0,在样本S上对于任意hH,至少有1δ的置信度

R(h)ˆRS(h)+Rm(H)+12mln1δR(h)ˆRS(h)+ˆRS(H)+312mln2δ

growth函数

对于假说集H,growth函数定义为:

mN,H(m)=max{x1,,xm}X|{(h(x1),,h(xm)):hH}|

G表示一个值域为{1,+1}函数族,那么下面的不等式始终成立:

Rm(G)2lnG(m)m

可以通过growth函数来约束假说h的泛化误差:

R(h)ˆRS(h)+2lnH(m)m+ln1δ2mP[|R(h)ˆRS(h)|>ϵ]4H(2m)exp(mϵ28)

VC-dimension

VC-dimension的定义为:

VCdim(H)=max{m:H(m)=2m}