Decision Tree 决策树是一种 ML 监督分类算法。似乎最后只能处理 yes-or-no 问题。
Decision Tree 的推理非常简单,决策树是一个二叉树,我们从根节点开始,每个非叶子节点都会考察一个数据的 feature 来选择子节点,叶子节点是最终的结果,如下所示:
那么这样的一棵决策树是如何生成的呢?简单说,就是我们有一组数据,每个数据都有诸多 feature 和一个 label ,我们使用一些特殊的算法,来选择如何构建这棵树(也就是排列各个 feature)。
有一种经典的构建方式依赖的是信息熵(information entropy),信息熵可以衡量集合的“纯度”,我们的目的是,通过构建树,让叶节点(其本质是多个特定的 feature 的子集合)的纯度更高。
决策树有过拟合问题,所以我们发明了剪枝(pruning)方法来解决,不知道 LLM 中的 pruning 是不是来自这里。
决策树的优势在于非常直观,一点也不黑箱,所以被广泛应用于高责任领域:诊断、医学和金融。
此外当前的搜索引擎,就是基于决策树构建的,因为决策树在构建大型系统方面也有优势。