对于工业智能建模,人们经常会有一些误解:建模过程是逐渐自动化的,难度越来越小,并且不需要太多的工作。但是,在实际构建数据驱动的工业智能模型时,我们获得的数据经常存在许多问题。一般来说,在建模之前需要对数据进行预处理,并将其分类为适合构建机器学习模型的可靠数据。通常没有用于数据预处理的标准过程,并且对于不同的任务和数据集属性,它也有所不同。那么大数据预处理技术是什么?大数据预处理技术包含什么?
大数据预处理技术是什么?
大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作。
因获取的数据可能具有多种结构和类型,数据抽取的主要目的是将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。
大数据预处理技术包含什么?
通常数据预处理包含 3 个部分:数据清理、数据集成和变换及数据规约。
1.数据清理
数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在错误或偏离期望值的数据)和不一致数据处理。
· 遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理。
· 噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音。
· 对于不一致数据则可进行手动更正。
2.数据集成
数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。
这一过程中需要着重解决 3 个问题:模式匹配、数据冗余、数据值冲突检测与处理。
由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。对来自多个实体的不同数据进行匹配是处理数据集成的首要问题。
数据冗余可能来源于数据属性命名的不一致,可以利用皮尔逊积矩来衡量数值属性,对于离散数据可以利用卡方检验来检测两个属性之间的关联。
数据值冲突问题主要表现为,来源不同的统一实体具有不同的数据值。数据变换的主要过程有平滑、聚集、数据泛化、规范化及属性构造等。
数据规约主要包括数据方聚集、维规约、数据压缩、数值规约和概念分层等。
使用数据规约技术可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。
在规约后的数据集上进行挖掘,依然能够得到与使用原数据集时近乎相同的分析结果。
上述就是关于大数据预处理技术是什么,以及大数据预处理技术包含什么的全部内容介绍,想了解更多关于大数据预处理技术的信息,请继续关注。