fgg blog

: DTs

Book Notes: Tree-based Models

## Tree-based models

# Part-I: Theorist views

基本术语和符号约定

一般地,令 $D = {x_1, x_2, \ldots, x_m }$ 表示包含 $m$ 个示例的数据集,每个示例由 $d$ 个属性描述,则每个示例 $x_i = (x_{i1}, x_{i2}, \ldots, x_{id})$ 是 $d$ 维样本空间 $\mathcal{X}$ 的一个向量1,$x_i \in \mathcal{X}$, 其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值, $d$ 称为样本 $x_i$ 的“维数”(dimensionality)。

要建立一个关于“预测(prediction)”的模型,单有示例数据(也称为样本,sample)还不行,我们还需要获得训练样本的“结果”信息,例如,一个描述西瓜的记录“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。这里,关于示例结果的信息,例如 “好瓜” ,称为 “标记(label)”;拥有了标记信息的示例,则称之为 “样例(example)"。

一般地,用 $(x_i, y_i)$ 表示第 $i$ 个样例,其中 $y_i \in \mathcal{Y}$ 是示例 $x_i$ 的标记, $\mathcal{Y}$ 是所有标记的集合,亦称“标记空间(label space)”或“输出空间”。

如果我们想要预测的是离散值,例如 “好瓜” “坏瓜”,此类学习任务称为 “分类(classification)”;如果要预测的是连续值, 例如西瓜的成熟度0.9,0.4,此类学习任务称为 “回归(regression)”。二分类(binary classification)任务中,通常令 $\mathcal{Y} = {-1, +1 }$ 或 $\mathcal{Y} = {0, 1 }$;对于多分类(multi-class classification), $|\mathcal{Y}| > 2$;对回归任务,$\mathcal{Y} = \R$,$\R$ 为实数集。