机器学习中的集成学习的原理是什么,以及如何创造集成模型

最强大的机器学习技术之一是集成学习。集成学习是使用多个机器学习模型来提高预测的可靠性和准确性。本文将对集成模型背后的基本原理进行分析。


什么是集成学习?


简单地说,集成学习就是训练多个机器学习模型并将它们的输出组合在一起的过程。以不同的模型为基础,建立一个最优预测模型。组合一组不同的机器学习模型可以提高整体模型的稳定性,从而得到更精确的预测。集成学习模型往往比单个模型更可靠,因此,在许多机器学习竞赛中,它们往往是第一名。


工程师可以使用不同的技术来创建集成学习模型。简单的集成学习技术包括对不同模型的输出进行平均,同时还开发了更复杂的方法和算法,特别是将许多基本学习者/模型的预测组合在一起。


为什么要用集成训练?


由于各种原因,机器学习模型可能彼此不同。不同的机器学习模型可以对不同的人口数据样本进行操作,可以使用不同的建模技术,也可以使用不同的假设。


想象一下你正在和一大群人玩一个琐碎的游戏。如果你一个人在一个团队里,肯定会有一些你知道的话题和很多你不知道的话题。现在假设你和其他人在一个团队里。就像你一样,他们对自己的专业有一定的了解,而对其他课题一无所知。然而,当你们的知识结合在一起时,你对更多领域有了更准确的猜测,而且你的团队缺乏知识的主题数量也会减少。这与集成学习的原理相同,它将不同团队成员(单个模型)的预测结合起来,以提高准确性并最大限度地减少错误。


统计学家已经证明,当一群人被要求用一系列可能的答案来猜测一个给定问题的正确答案时,他们所有的答案都会形成一个概率分布。真正知道正确答案的人会自信地选择正确的答案,而选择错误答案的人会将他们的猜测分散到可能的错误答案范围内。回到一个小游戏的例子,如果你和你的两个朋友知道正确的答案是a,你们三个都会投a,而你团队中其他三个不知道答案的人很可能会错误地猜测B、C、D,结果是A有三票,其他答案可能只有一到两票。


所有的模型都有一定的误差。一个模型的误差将不同于另一个模型产生的误差,因为模型本身由于上述原因而不同。当检查所有的错误时,它们不会聚集在一个或另一个答案周围,而是分散在周围。不正确的猜测基本上分散在所有可能的错误答案上,相互抵消。同时,来自不同模型的正确猜测将聚集在真实、正确的答案周围。当使用集成训练方法时,可以找到更可靠的正确答案。


简单的集成训练方法


简单的集成训练方法通常只涉及统计汇总技术的应用,例如确定一组预测的模式、平均值或加权平均值。


模式是指一组数字中出现频率最高的元素。为了得到模型,个体学习模型返回他们的预测,这些预测被认为是对最终预测的投票。通过计算预测的算术平均值(四舍五入到最接近的整数)来确定预测的平均值。最后,加权平均值可以通过为用于创建预测的模型分配不同的权重来计算,权重代表该模型的感知重要性。类预测的数值表示与权重从0到1.0相乘,然后将单个加权预测相加,结果四舍五入到最接近的整数。


高级集成训练方法


有三种主要的高级集成训练技术,每种技术都是为处理特定类型的机器学习问题而设计的。“装袋”技术用于减少模型预测的方差,方差指的是基于同一观察结果时预测结果的差异程度。“增强”技术被用来对抗模型的偏差。最后,“叠加”通常用于改进预测。


集成学习方法通常可以分为两类:顺序学习方法和并行集成方法。


序列集成方法之所以被称为“序列”,是因为基本模型是按顺序生成的。在序列方法的情况下,基本思想是利用基础学习者之间的依赖性来获得更准确的预测。错误标记的示例将调整其权重,而正确标记的示例保持相同的权重。每次生成新学习者时,权重都会发生变化,准确度(希望)会提高。


与序列集成模型不同,并行集成方法并行生成基本学习者。在进行并行集成学习时,其思想是利用基本学习者具有独立性这一事实,因为通过平均单个学习者的预测可以降低一般错误率。


集成训练方法可以是同质的,也可以是异质的。大多数集成学习方法是同质的,这意味着它们使用单一类型的基本学习模型/算法。相反,异构集成使用不同的学习算法,使学习者多样化,并使学习者多样化,以确保尽可能高的准确性。


集成学习算法示例

机器学习中的集成学习的原理是什么,以及如何创造集成模型_业界动态_数码家电

序列集成方法的示例包括AdaBoost、XGBoost和梯度树boosting。这些都是提振型的。对于这些提升模式,目标是将弱的、表现不佳的学习者转化为更强大的学习者。像AdaBoost和XGBoost这样的模型一开始就有许多学习能力弱的学习者,他们的表现略好于随机猜测。随着训练的继续,对数据应用权重并进行调整。在前几轮培训中被学习者错误分类的实例将被赋予更大的权重。在这个过程被重复到所需的训练轮数之后,预测通过加权和(对于回归任务)和加权投票(对于分类任务)结合在一起。

机器学习中的集成学习的原理是什么,以及如何创造集成模型_业界动态_数码家电

并行集成模型的一个例子是随机森林分类器,而随机森林也是一个装袋技术的例子。术语“bagging”来自“bootstrap aggregation”。样本是从整个数据集中提取的,使用的是被称为“bootstrap sampling”的抽样技术,基本学习者使用这种技术进行预测。任务的分类输出是基于投票的平均值,而任务的分类是基于投票的。随机森林使用单个决策树作为它们的基本学习者,集成中的每一棵树都是使用来自数据集的不同样本构建的。特征的随机子集也用于生成树。导致高度随机化的个体决策树,这些树被组合在一起以提供可靠的预测。

机器学习中的集成学习的原理是什么,以及如何创造集成模型_业界动态_数码家电

在叠加集成技术方面,多元回归或分类模型通过更高层次的元模型组合在一起。较低级别的基本模型通过输入整个数据集进行训练。然后将基本模型的输出作为特征来训练元模型。


37
153
0
18

相关资讯

  1. 1、Togaf是什么认证?TOGAF的作用是什么?5038
  2. 2、沈义人和卢伟冰都在说去工厂拧螺丝这是咋回事呢?1855
  3. 3、戴姆勒GenH2氢燃料电池概念卡车推出续航1000公里1787
  4. 4、戴姆勒推氢动力概念卡车GenH2续航里程达1000公里590
  5. 5、续航短制约AppleWatch发展?苹果新专利没准能解决1132
  6. 6、实力诠释美由“芯”生荣耀30S将于明日开启火爆首销664
  7. 7、iPhone12或改成Type-C口苹果也将推出GaN充电器?3923
  8. 8、SpaceX推迟发射新一批星链卫星因上面级相机故障2460
  9. 9、CISP-A认证条件有哪些?考试题型是什么?958
  10. 10、红旗E-HS9北京车展正式开启预售预售价为55-75万元1457
全部评论(0)
我也有话说
0
收藏
点赞
顶部