fgg blog

mixup_beyond_ERM

## Empirical Risk Minimazation (ERM)

经验风险最小化, Empirical Risk Minimazation principle (Vapnik, 1998)

  1. 基于ERM训练模型:亦即在训练数据集上学习以最小化其平均误差。
  2. 当前SOTA模型的参数量随着训练数据集规模增大而线性增加。

而经典VC学习理论(learning theory, Vapnik & Chervonenkis, 1971)表明:只要学习器的参数量 不随着训练样本数量增加,则基于ERM学习一定会收敛(convergence, i.e., good generalization to new data)。亦即:模型的复杂度(参数量规模)相对于训练数据规模应该是固定的或者变动不大。

这就造成了这样的矛盾:

  • 经典学习理论认为:想要ERM有效,则模型的参数量应该保持一定大小,而不是随着训练数据集规模增加而增加;

  • 然而在实际任务中:SOTA模型的参数量是与训练数据量保持线性增加的。

实际上,一方面ERM允许大的神经网络模型“记住”训练样本(即使用了很强的正则化约束, strong regularization),另一方面ERM训练得到的模型在训练分布之外的样本上的预测结果差异巨 大(即使被预测的样本仅仅发生了相对微小的改变,adversarial examples)。

那么,有没有别的模型训练最优化准则呢?-> Vicinal Risk Minimization (VRM).

In VRM, human knowledge is required to describe a vicinity or neighborhood around each example in the training data. Then, additional virtual examples can be drawn from the vicinity distribution of the training examples to enlarge the support of the training distribution.

例如,在图像分类任务中,图像增强通常包括轻微的旋转、翻转、缩放等操作,这其实是图像的近邻 集(vicinity set)。这些数据增强通常提升了模型的泛化性能。但这些操作通常也是数据依赖的。

Mixup 提供了一种数据无关(data-agnostic)的增强方法,它构造虚拟样本的方式如下:

$$ \begin{eqnarray} \tilde{x} &=& \lambda x_i + (1 - \lambda) x_j, \text{where } x_i, x_j \text{ are raw input vectors} \\ \tilde{y} &=& \lambda y_i + (1 - \lambda) y_j, \text{where } y_i, y_j \text{ are one-hot label encoding} \end{eqnarray} $$

$(x_i, y_i)$ 和 $(x_j, y_j)$ 是从训练集中随机抽取的两个样例。$\lambda \in [0, 1]$。

因此,mixup通过结合先验知识扩展了训练分布,即特征向量的线性插值应导致相关目标的线性插值。 mixup可以用几行代码实现,并且只引入最小的计算开销。

Mixup: beyond_ERM, https://arxiv.org/pdf/1710.09412