fgg blog

: ERM

mixup_beyond_ERM

## Empirical Risk Minimazation (ERM)

经验风险最小化, Empirical Risk Minimazation principle (Vapnik, 1998)

  1. 基于ERM训练模型:亦即在训练数据集上学习以最小化其平均误差。
  2. 当前SOTA模型的参数量随着训练数据集规模增大而线性增加。

而经典VC学习理论(learning theory, Vapnik & Chervonenkis, 1971)表明:只要学习器的参数量 不随着训练样本数量增加,则基于ERM学习一定会收敛(convergence, i.e., good generalization to new data)。亦即:模型的复杂度(参数量规模)相对于训练数据规模应该是固定的或者变动不大。