怎样进行数据预处理?

很多人都比较好奇,在数据库中,拥有成千上万的数据,专业数据人员是怎样进行数据预处理的?数据预处理的工作是整个数据分析的重中之重,它占据整个数据分析的70%,由此可见数据预处理的重要性。因此对于数据预处理,人们研究很多方法,来更好的、更快的进行数据与处理,具体包括数据清洗、数据集成、数据规约、数据变换等。当然在这些方法中也分常见和不常见的,今天本文就来介绍两种数据预处理的常见方法。

怎样进行数据预处理?_业界动态_电子商务

 一、数据清洗

数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲,数据清洗是一项繁重的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。

 1.缺失值处理

实际获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值,会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充(最大值、最小值、均值、中位数、众数)进行填充,这种方法被称为缺失值填充。对于缺失的数据,一般根据缺失率来决定“删”还是“补”。

 2.离群点处理

离群点(异常值)是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。

 3.不一致数据处理

实际数据生产过程中,由于一些人为因素或者其他原因,记录的数据可能存在不一致的情况,需要对这些不一致数据在分析前进行清理。例如,数据输入时的错误可通过和原始记录对比进行更正,知识工程工具也可以用来检测违反规则的数据。

 二、数据集成

随着大数据的出现,我们的数据源越来越多,数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储,这些源可能包括多个数据库或数据文件。在数据集成的过程中,会遇到一些问题,比如表述不一致,数据冗余等,针对不同的问题,下面简单介绍一下该如何处理。

 1.实体识别问题

在匹配来自多个不同信息源的现实世界实体时,如果两个不同数据库中的不同字段名指向同一实体,数据分析者或计算机需要把两个字段名改为一致,避免模式集成时产生的错误。

 2.冗余问题

冗余是在数据集成中常见的一个问题,如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。

 3.数据值的冲突和处理

不同数据源,在统一合并时,需要保持规范化,如果遇到有重复的,要去重。

好了,关于怎样进行数据预处理内容介绍到这里就结束了,其实关于数据预处理的方法还有很多,这里只是简单的介绍两种常见的方法。想了解更多关于数据预处理的信息,请继续关注。

17
148
0
15

相关资讯

  1. 1、仙三导演坐镇,《仙剑奇侠传五》前传官宣开拍,能否再创收视神话?671
  2. 2、《骊歌行》大结局:颜妃真面目曝光,陷害傅柔,盛楚慕请秦王相救4349
  3. 3、恭喜工夫真言旗下郭丞参演电影《你的婚礼》票房破7亿1575
  4. 4、《猎鹰与冬兵》巴基的战力忽高忽低,是对手问题吗?2316
  5. 5、《痞子英雄2》戛纳首发海外预告曝三人组角色421
  6. 6、10天预售700万,张子枫《我的姐姐》能不能和《少年的你》并肩2051
  7. 7、电影《关关雎鸠》11月底国内外院线上映(图)5084
  8. 8、神剧《顶楼》再反转,露娜没死,韩国第一狗血编剧名不虚传?1483
  9. 9、胡杏儿撇下儿子和老公外出吃宵夜,李承德不惧太太发福点了很多菜849
  10. 10、快男快女频现舞台“好声音”成选秀常客复活赛1011
全部评论(0)
我也有话说
0
收藏
点赞
顶部