机器学习是人工智能的一部分,它由算法组成,并随着时间的推移自动改进。为了将机器学习应用于不同的数据集,我们需要对数据进行清理,为机器学习阶段做准备。同时,我们需要识别数据或问题,无论是回归、分类等。
有很多机器学习算法,我们可以用来解决我们的预测、回归、分类等问题。但我们需要单独调用它们,并将我们的数据作为参数传入它们。要尝试不同的算法,并选择一个准确率最高、误差最小的算法是非常困难的。
Autogluon是一个开源的python库,它可以自动化机器学习的整个过程,并帮助实现高精度。它仅用一行代码就能自动训练和预测模型。它适用于不同类型的数据集,即表格、图像、文本等。
在本文中,我们将探讨如何使用Autogluon来训练最适合给定表格数据集的模型。
实现方式:
我们将从使用pip install mxnet autogluon安装Autogluon开始。
1.导入所需的库
为了加载数据集,我们将要导入熊猫,而对于机器学习算法,我们将导入autogluon。
2.加载数据集
在这里,我们将使用一个数据集,该数据集包含来自MNC的广告部门的不同属性,其中包含诸如Sales,TV等属性。在此数据集中,Sales是目标变量。我们将这些数据集拆分并存储为测试和训练数据。
3.使用Autogluon进行机器学习
现在,当我们导入所需的数据集后,我们将应用最后一步,即将Autogluon用于预测器和性能函数。我们将标签设置为“销售”,因为它是我们的目标变量。它将自动检测问题的类型,即是否是回归,分类等。
它通过最好的不同回归模型进行搜索,并向您返回所使用的不同模型的名称,它们的验证时间以及验证RMSE。
现在,让我们使用性能功能打印测试数据的性能,并查看最适合模型的RMSE。
在这里我们可以看到该模型的性能非常好,因为误差非常低。我们可以通过显式提供保存位置或自动将模型保存在运行模型的目录中来保存这些模型。
结论:
在本文中,我们看到了如何轻松轻松地为表格数据集创建不同的模型,并找到给定数据集的最佳模型。我们还看到了该模型的性能,以验证其是否为最佳模型。Autogluon通过自动化机器学习的整个过程节省了大量时间。