Deep Learning

Published: August 02, 2022 by Daltao

Categories:
technology 22

PAC
Rademacher复杂度和VC维度
- growth函数
- VC-dimension

PAC

定义：

$C$ : 概念集合，每个概念 $c:X\rightarrow Y$ 是一个映射
$X$ ：输入集合
$Y$ ：输出集合
$H$ ：假说集合
$D$ ：输入集合的概率分布
$Z$ ： $X\times Y$
$S$ ：样本集合， $Z$ 的子集

考虑binary classify，其对应的概念为 $c$ ，这时候 $Y=\left\{0,1\right\}$ 。我们的目标是从 $H$ 中找到与 $c$ 误差最小的假说 $h$ 。定义泛化误差为：

$R(h)=\mathop{\mathrm{P}}\limits_{x\sim D}[h(x)\neq c(x)]=\mathop{\mathrm{E}}\limits_{x\sim D}[1_{h(x)\neq c(x)}]$

定义经验误差为：

$\widehat{R}_S(h)=\frac{1}{m}\sum_{i=1}^m1_{h(x_i)\neq c(x_i)}$

始终满足

$\mathop{\mathrm{E}}\limits_{x\sim D}[\widehat{R}_S(h)]=R(h)$

记 $n$ 代表表示任意一个输入空间中元素所需的空间大小。记 $size(c)$ 表示概念类 $C$ 中需要最多空间表示的概念的需要的空间。

我们称概念类 $C$ 是PAC-learnable，如果存在一个算法 $A$ ，和一个多项式 $poly$ ，满足对于任意 $\epsilon>0$ 以及 $\delta>0$ ，对于任意一个 $X$ 上的概率分布 $D$ ，以及任意目标概念 $c\in C$ ，只要样本数量 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$ ，就有：

$\mathop{\mathrm{P}}\limits_{S\sim D^m}[R(h_S)\leq \epsilon]\geq 1-\delta$

进一步的如果 $A$ 能在 $poly(1/\epsilon,1/\delta,n,size(c))$ 时间复杂度内结束，那么认为 $C$ 是可以被有效PAC-learnable的，并认为算法 $A$ 是 $C$ 的PAC-learnable算法。

有限假说集合一致情况

对于有限大小的假说集 $H$ ，目标概念 $c\in H$ 。且算法 $A$ 能找到一个假说 $h_S$ 满足$\widehat{R}S(h_S)=0 $。那么对于任意$ \delta>0 $，一定满足$ \mathrm{P}{S\sim D^m}[R(h_S)\leq \epsilon]\geq 1-\delta$，只要

$m\geq \frac{1}{\epsilon}\ln \frac{|H|}{\delta}$

有限假说集合不一致情况

之前讨论的 $h$ 是在 $S$ 上是完全一致的（ $0$ 误差），但是实际上很多时候由于目标概念超出了我们假说的范畴，因此会存在一定的经验误差。

对于任意假说 $h:X\rightarrow \left\{0,1\right\}$ ，由Hoeffding's inequality可以直接推出

$\mathop{\mathrm{P}}\limits_{S\sim D^m}[|\widehat{R}_S(h)-R(h)|\geq \epsilon]\leq 2\exp(-2m\epsilon^2)$

继而可以推出对于任意 $\delta>0$ ，下面不等式拥有至少 $1-\delta$ 的置信度

$R(h)\leq \widehat{R}_S(h)+\sqrt{\frac{1}{2m}\log \frac{2}{\delta}}$

对于任意有限假说集合 $H$ ，以及任意 $\delta>0$ ，都至少有 $1-\delta$ 置信度，使得不等式满足：

$\forall h\in H, R(h)\leq \widehat{R}_S(h)+\sqrt{\frac{1}{2m}\ln \frac{2|H|}{\delta}}$

不可知PAC

上面提到的样本是 $X\times Y$ 的子集，但是有一种场景是一个样本的标签是概率分布而不是精确值。比如给定身高和体重，标签是性别。PAC学习在这种场景下的自然扩展称作不可知（agnostic）PAC。

泛化误差为：

$R(h)=\mathop{\mathrm{P}}\limits_{(x,y)\sim D}[h(x)\neq y]=\mathop{\mathrm{E}}\limits_{(x,y)\sim D}[h(x)\neq y]$

称 $A$ 是不可知PAC学习算法，如果存在一个多项式 $poly$ ，对于任意 $\epsilon>0$ 以及 $\delta>0$ ，对于所有 $X\times Y$ 上的概率分布 $D$ ，只要 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$ ，就有：

$\mathop{\mathrm{P}}\limits_{S\sim D^m}[R(h_S)-\mathop{\min}\limits_{h\in H}R(h)\leq \epsilon]\geq 1-\delta$

如果 $A$ 能在 $poly(1/\epsilon,1/\delta,n,size(c))$ 实际复杂度内结束，那么称 $A$ 是一个有效的不可知PAC学习算法。

定义贝叶斯误差为：

$R^*=\mathop{\inf}\limits_{h} R(h)$

对于假说 $h$ ，如果满足 $R(h)=R^*$ ，那么称 $h$ 为贝叶斯假说或贝叶斯分类器。

在确定的情况（只允许一个标签）下，满足$R^=0 $，但是在随机的情况（允许多个标签）下，$ R^\neq 0$，可以通过条件概率定义为：

$\forall x\in X, h_{Bayers}(x)=\mathop{\argmax}\limits_{y\in \{0,1\}} \mathrm{P}[y|x]$

对于给定的 $X\times Y$ 上的概率分布，定义在点 $x$ 处的噪音为

$noise(x)=\min\{\mathrm{P}[0|x],\mathrm{P}[1|x]\}$

满足

$\mathrm{E}[noise(x)]=R^*$

对于点 $x$ ，如果 $noise(x)$ 接近 $\frac{1}{2}$ ，那么这样的点称为噪音点，也是精确预判所会遇到的挑战。

Rademacher复杂度和VC维度

对于任意损失函数 $L:Y\times Y\rightarrow R$ ，定义关联与 $H$ 的损失函数损失函数族为：

$G=\{g:(x,y)\rightarrow L(h(x),y):h\in H\}$

对于样本集合 $S=(z_1,\ldots,z_m)$ ， $G$ 的Rademacher经验复杂度为

$\widehat{R}_S(G)=\mathop{\mathrm{E}}\limits_{\sigma}[\mathop{\sup}\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)]$

其中 $\sigma=(\sigma_1,\ldots,\sigma_m)^T$ ，其中 $\sigma_i$ 是取值为 $\left\{-1,+1\right\}$ 的均匀分布独立随机变量，称为Rademacher变量。记 $g_S=(g(z_1),\ldots,g(z_m))^T$ ，那么可以重写为

$\widehat{R}_S(G)=\mathop{\mathrm{E}}\limits_{\sigma}[\mathop{\sup}\limits_{g\in G}\frac{g_S\cdot\sigma}{m}]$

Rademacher泛化复杂度定义如下

$R_m(G)=\mathop{\mathrm{E}}\limits_{S\sim D^m}[\widehat{R}_S(G)]$

如果损失函数取值范围为 $\left\{0,1\right\}$ ，对于任意 $\delta>0$ ，下面不等式至少拥有 $1-\delta/2$ 的置信度：

$\mathrm{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^mg(z_i)+2R_m(G)+\sqrt{\frac{1}{2m}\ln \frac{1}{\delta}}\\ \mathrm{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^mg(z_i)+2\widehat{R}_S(G)+3\sqrt{\frac{1}{2m}\ln \frac{2}{\delta}}$

如果 $Y=\left\{-1,1\right\}$ ，且损失函数取值范围为 $\left\{0,1\right\}$ ，考虑 $S_X$ 是 $S$ 在 $X$ 上的投影，那么有：

$\widehat{R}_S(G)=\frac{1}{2}\widehat{R}_{S_X}(H)$

对于任意空间 $X$ 上的分布 $D$ ，对于任意 $\delta>0$ ，在样本 $S$ 上对于任意 $h\in H$ ，至少有 $1-\delta$ 的置信度

$R(h)\leq \widehat{R}_S(h)+R_m(H)+\sqrt{\frac{1}{2m}\ln \frac{1}{\delta}}\\ R(h)\leq \widehat{R}_S(h)+\widehat{R}_S(H)+3\sqrt{\frac{1}{2m}\ln \frac{2}{\delta}}$

growth函数

对于假说集 $H$ ，growth函数定义为：

$\forall m\in N, \prod_H(m)=\mathop{\max}\limits_{\left\{x_1,\ldots,x_m\right\}\subseteq X}|\left\{(h(x_1),\ldots,h(x_m)):h\in H\right\}|$

令 $G$ 表示一个值域为 $\left\{-1,+1\right\}$ 函数族，那么下面的不等式始终成立：

$R_m(G)\leq \sqrt{\frac{2\ln \prod_G(m)}{m}}$

可以通过growth函数来约束假说 $h$ 的泛化误差：

$R(h)\leq \widehat{R}_S(h)+\sqrt{\frac{2\ln \prod_H(m)}{m}}+\sqrt{\frac{\ln \frac{1}{\delta}}{2m}}\\ \mathop{\mathrm{P}}[|R(h)-\widehat{R}_S(h)|>\epsilon]\leq 4\prod_H(2m)\exp(-\frac{m\epsilon^2}{8})$

VC-dimension

VC-dimension的定义为：

$\mathrm{VCdim}(H)=\max\left\{m:\prod_H(m)=2^m\right\}$