大数据和数据科学是经常一起听到的概念。人们相信,如今有大量数据,并且数据科学可以从,所有这些TB的信息中获得有价值的信息。但是,在实际情况下,解决问题的数据通常很少。收集大数据集可能会非常昂贵或根本不可能。结果,通常别无选择,只能使用一个小的数据集,试图获得尽可能准确的预测。在本文中,我们将简要介绍使用小型数据集时出现的问题。然后,我们将讨论克服这些问题的最有效技术。
偏差权衡
简而言之,当您寻找一个完美的模型来解释您的数据时,您正在平衡偏差和方差。
偏差是模型预测值与真实值之间的差。具有高偏差的模型过分简化了预测变量和目标变量之间的关系,并在训练和测试数据上显示出很高的误差。
方差反映了模型预测的可变性。具有高方差的模型过于关注训练数据,而不能很好地推广到测试数据集。结果,这些模型在训练集上显示出非常低的误差,而在测试集上显示出非常高的误差。
具有低偏差和高方差的模型会拟合数据,而具有高偏差和低方差的模型则拟合数据。
在小型数据集上训练的模型更有可能看到不存在的模式,这会导致测试集的高方差和极高的误差。这些是过度拟合的常见迹象。因此,使用小型数据集时,您的主要目标是避免过度拟合。你怎么做到这一点?
处理小数据集的7种有效方法
现在,我们将讨论在使用小型数据集时避免过拟合的七种最有用的技术。
1. 选择简单的模型。 具有许多参数的复杂模型更容易过度拟合:
· 如果您正在训练分类器,请考虑从逻辑回归开始。
· 如果要训练模型以预测某个值,请考虑权重数量有限的简单线性模型。
· 对于基于树的模型,请限制最大深度。
· 使用正则化技术可以使模型更加保守。
对于稀缺的数据,您的目标是限制模型查看不存在的模式和关系的能力。这意味着您要限制权重和参数的数量,并排除所有暗示非线性或特征相互作用的模型。还要注意,根据研究,某些分类器可能更适合处理小型数据集。
2. 从数据中删除异常值。 当使用小型数据集时,离群值会对模型产生巨大影响。因此,在处理稀缺数据时,您需要识别并删除异常值。另一种方法是使用对异常值具有鲁棒性的技术。消除异常值的影响对于使用小数据集获得明智的模型至关重要。
3. 选择相关功能。 通常,显式特征选择不是最佳方法,但是当数据有限时,这可能是必不可少的步骤。 很难避免因少量观察值和大量预测变量而过度拟合。特征选择有几种方法,包括与目标变量的相关性分析,重要性分析和递归消除。还值得注意的是,功能选择将始终受益于领域专业知识。因此,如果您不熟悉主题领域,请找一位领域专家来讨论特征选择的过程。
4. 合并几个模型。 当您组合来自多个模型的结果时,您可能会获得更准确的预测。例如,与来自各个模型的预测相比,作为来自各个模型的预测的加权平均值计算的最终预测将具有更低的方差和更高的通用性。此外,您可以使用不同的超参数值组合来自不同模型或来自同一模型的预测。
5. 依靠置信区间而不是点估计 。除了预测本身之外,估计预测的置信区间通常也是个好主意。当您使用小型数据集时,这一点尤其重要。因此,在回归分析中,请确保估计95%的置信区间。如果要解决分类问题,请计算班级预测的概率。如果您更好地了解了模型对预测的“信心”,则根据模型的结果得出错误结论的可能性就较小。
6. 扩展数据集。 当数据真正稀缺或数据集严重失衡时,请寻找扩展数据集的方法。例如,您可以:
· 使用合成样品。这是解决数据集中某些类的代表性不足的常用方法。有几种 方法,以增强与合成样品的数据集。选择最适合您的特定任务的一种。
· 合并来自其他可能来源的数据。例如,如果要在特定区域中对温度建模,则也要使用其他区域的天气信息,但要对感兴趣区域的数据点分配更高的权重。
7. 尽可能进行转移学习。 这种方法也是数据扩展的一种。转移学习意味着在可用的大型数据集上训练通用模型,然后在小型数据集上对其进行微调。例如,如果您要处理图像分类问题,则可以使用在庞大的图像数据集ImageNet上预先训练的模型,然后针对特定问题对其进行微调。与使用有限数据从头开始训练的模型相比,预训练的模型更有可能产生准确的预测。迁移学习与灵活的深度学习技术特别有效。
小数据只是您可以克服的另一个挑战
许多研究人员和实践者认为,小数据是数据科学的未来。对于每种问题都拥有庞大的数据集是不可行的。请遵循以下准则来克服小型数据集的挑战:
· 了解统计信息的基础知识,以了解处理少量观测值时可能遇到的问题。
· 了解避免过度拟合的关键策略,并从小数据中获得准确的结果。
· 有效地执行所有数据清理和数据分析步骤。
· 从模型预测中得出结论时,请注意模型的局限性。
上述就是关于处理小数据集的7种有效方法的全部内容,想了解更多关于处理数据的信息,请继续关注。