数据科学领域的每个人都遇到了要求独角兽的工作清单:编程语言和计算机科学,统计和计量经济学以及商业领域的专家。如果您也可以进行引人注目的数据可视化,那就太好了。可能会有一些人结合了所有这些特征,但它们之间相差无几。随着该领域的发展,职位描述已变得更加具体于其中一个领域,而最成功的数据科学团队正是受益于专业化和协作。工程师可能负责收集,清理和维护数据。统计员或经济学家可能正在对数据进行分析,例如预测模型。可能会有一位可视化专家来弄清楚如何最好地交流模型所产生的见解,并由一位业务负责人来指导感兴趣的问题。在所有这些级别上,都是人,他们对所收集的数据,所提出的问题以及所提供的见解做出决策。
数据科学团队之所以成功,是因为每个成员都将自己的培训,经验和观点带到了餐桌上。显而易见,拥有多种技能可以解决更多创造性问题,但是通常并不能进一步推断结论,以认识到多种多样的生活经验也可以增强团队精神。
算法和模型塑造了我们的世界,吸收数据并以惊人的速度收集见解。根据数据建模的结果确定从电视节目更新到本地商店的所有杂货的所有内容。这些都是相对无害的结果,但是数据建模还确定了警察资源的分配方式以及被定罪的个人是否有可能再次犯罪。在一个完美的世界中,数据没有偏见并且模型不需要人工输入,这可能会导致最佳结果,但是我们并不生活在那个世界中。模型仅与其设计者一样好,数据不知道它还没有看到什么。
从根本上说,正是数据科学家在框定非常值得通过数据探索的问题。
从这种角度看,数据科学家具有很大的影响力,如果数据科学家是具有相似背景和兴趣的同质群体,那么它将缩小我们探索的世界,并限制了我们从数据中得出的见解的有效性。
同质性不仅限于教育或技术背景。相关专业人表示数据科学家中有85%是男性,而预测分析师中有74%是男性。考虑到构成这些专业的领域,这种联系变得更加明显:根据美国国家教育统计中心的数据,2016年只有18%的计算机科学学士学位授予了女性。统计数据确实好,几乎43%的女性和经济学落在某处大约31%,但考虑到整体,女性收入的57%都授予学士学位。鉴于教育中的数字十分明显,在数据科学和预测分析行业中女性人数不足的不足为奇。当然,缺乏代表性意味着我们提出的问题,我们在模型中使用的变量,甚至我们对这些模型的解释都因我们行业内的选择偏见而歪曲。
最近被提醒了这一点:在花费大量时间和金钱尝试使用AI来改善他们的聘用方式之后,他们发现,该模型经过对由他们过去成功聘用的人员构成的令人难以置信的偏见数据进行了训练,将会发现更加微妙的方法。过滤掉女人。亚马逊的观点是了解其算法的局限性,但是有多少公司以一种毫无希望的偏见方式应用了数据科学却从未见过?或者,如果算法的预测准确,但应用该知识却没有考虑潜在的负面结果,该怎么办?目标几年前,这种情况发生了,当时其数据科学团队能够根据客户的购买历史准确预测客户何时怀孕,并使用该信息向客户推销与怀孕和婴儿相关的物品。他们没有考虑的是,这些营销通告是针对家庭而不是个人,并且怀孕的人可能不希望共享这些信息,例如,一个十几岁的女孩尚未告知父母其计划外的怀孕。正如当时的许多所指出的那样,如果一名妇女因遭受暴力侵害而隐瞒自己的怀孕,那可能是一个灾难性的后果。在这种情况下,拥有更广泛生活经验的更加多样化的团队可能已经注意到应用其见解的潜在危险。
没有宽广的视野,您最终会不可避免地遭受想象力的失败。这就是为什么像DSSe这样的旨在提高女性在数据科学领域工作的计划如此重要的原因。
在数据科学领域拥有更多的女性会影响到所有问题,从我们提出的问题到我们使用的工具再到我们探索的技术。通过提出我们的观点,我们可以创建更好的模型并回答更有意义的问题。
例如,英特尔致力于实施一项雄心勃勃的计划,以在2015年提高其员工队伍的多样性。近三年后,他们将妇女和少数族裔群体中的代表性提高了63%,并且在不以任何方式牺牲盈利能力的情况下做到了这一点-不足为奇,据摩报告显示,性别高度多元化的公司可以在波动性较小的情况下获得更高的回报。数据科学还很年轻,我们有机会塑造这个领域,以反映它所探索的世界。它现在可能会偏向男性,但是通过DSSe等计划,该领域女性之间的指导以及考虑到从事数据科学职业的年轻女性的有针对性的鼓励,很快,数据科学将拥有可以真正提升该领域的多种视角。
上述就是关于从女性角度看数据的全部内容介绍,想了解更多关于大数据的信息,请继续关注。