机器学习-随机森林基本原理介绍


随机森林是一种集成学习算法,属于监督学习的一种。它通过集成多个决策树模型的预测结果来提高整体的预测精度和模型的鲁棒性。
随机森林的优点包括降低过拟合的风险、提供灵活性、易于确定特征重要性等。它在金融、医疗保健和电子商务等领域都有广泛的应用。

1基本介绍

随机森林是由Leo Breiman和Adele Cutler开发的,结合了多个决策树的输出以得出单一结果。随机森林的原理基于集成学习技术,它通过构建多个模型来进行预测,而不是依赖单个模型。 根据下列算法步骤建造每棵树。 
  • 用N来表示训练用例(样本)的个数,M表示特征数目。

  • 输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。

  • 从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。 

  • 对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。 

  • 每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。

2随机森林算法原理

Bagging(自助聚合)
首先,随机森林采用Bagging技术。它从整个数据集中选择一个随机样本子集,然后使用这些样本创建模型,这个过程被称为Bootstrap Sampling(自助采样)。每个模型都是基于这些样本独立训练的,最终的输出是通过多数投票来确定的。
特征随机性
随机森林还引入了特征随机性,即每个决策树只考虑特征的随机子集,而不是全部特征。这确保了决策树之间的低相关性。
集成多个决策树
随机森林由多个决策树组成,每个决策树都是基于一个从训练集中抽取的数据样本构建的。对于分类任务,最终的预测结果是通过多数投票确定的;对于回归任务,最终的预测结果是这些决策树的平均值。

多个决策树是如何集成?

在随机森林中,多个决策树是通过“多数投票”来集成得出最终结果的。这意味着对于分类任务,每棵决策树都会对输入数据进行预测,然后最终的预测结果是所有决策树预测结果中出现次数最多的类别。而对于回归任务,最终的预测结果是所有决策树预测结果的平均值。
这种集成方法能够有效地降低过拟合风险,并且通常能够提供更准确的预测结果。

相比于单个决策树模型在预测上有何优势?

降低过拟合风险

随机森林通过集成多个决策树的结果,可以降低过拟合的风险,因为每棵决策树只对部分数据进行训练,且最终结果是通过多数投票或平均值得出的。

提高预测准确性

由于随机森林采用多数投票或平均值的方式得出最终结果,通常能够提供更准确的预测,尤其是在处理大规模数据集时。

对异常值和噪声数据具有鲁棒性

随机森林对异常值和噪声数据具有一定的鲁棒性,因为它是基于多个决策树的集成结果,不容易受到单个数据点的影响。

能够处理大规模数据集

随机森林能够有效处理大规模数据集,因为它可以并行处理多棵决策树的训练过程,从而提高了训练效率。

提供特征重要性评估

随机森林可以通过特征重要性评估来确定哪些特征对预测结果的贡献最大,这有助于理解数据集和模型的特性。

请使用浏览器的分享功能分享到微信等