10月12日消息,来自密歇根大学的研究人员开发了一个开源框架,简化了从电子健康记录中提取数据的预处理。研究人员将该框架称为FIDDLE(Flexible Data-Driven Pipeline),它能够大大加快EHR数据预处理的速度,并协助机器学习(ML)从业人员处理健康数据。
研究人员写道:"通过加速和标准化劳动密集型的预处理步骤,FIDDLE可以帮助刺激构建临床有用的ML工具的进展。"
为什么它很重要
EHR数据预处理在不同的研究中可能会有很大的差异,这使得比较不同的算法和确保机器学习结果可以重现变得很困难。而且虽然一些研究人员提出了管道,但这些技术并不总是可以通用的。
"EHR数据是混乱的,通常由高维、不规则采样的时间序列组成,具有多种数据类型和缺失值。"研究人员写道。
"将EHR数据转化为适合ML技术的特征向量,需要做出许多决定,比如包含哪些输入变量,如何重新采样纵向数据,以及如何处理缺失数据等等。"他们继续说道。
为此,密歇根大学的研究人员开发了FIDDLE,它将结构化的EHR数据转化为ML算法的有用表示。
"FIDDLE的设计是为了在合理的默认设置下开箱即用,但它也允许用户自定义某些参数,并纳入特定任务的领域知识。"研究团队写道。
在对FIDDLE的评估中,研究人员训练模型来预测院内死亡率、急性呼吸衰竭和休克。
"在我们的概念验证实验中,FIDDLE生成的特征在不同的结果、预测时间和分类算法中都导致了良好的预测性能。"该团队写道。
研究人员指出,获得一个可用的模型,除了预处理之外,还需要更多的步骤,而且FIDDLE只考虑EHR中的结构化内容。
不过,"虽然FIDDLE并不是一个万能的预处理解决方案,还需要进一步的工作来测试其通用性的限制,但它可以帮助加速应用于EHR数据的ML研究。"他们说。
更大的趋势
密歇根大学的研究人员在他们的研究中指出,FIDDLE可以与其他工具一起使用,考虑非结构化的EHR内容--研究表明,这些内容对临床研究有很大的预测价值。
去年,西奈山卫生系统展示了临床医生和病例经理如何使用自然语言处理算法从非结构化内容中获得洞察力,特别是关于健康的社会决定因素。
"有很多创新,我们已经看到自然语言处理大行其道。"西奈山高级分析和数据管理IT总监Varun Gupta说。
记录
"虽然FIDDLE绝不是对所有用例进行数据预处理的唯一最佳方式,但它促进了预处理代码的可重复性和共享(通常被忽略或在文献中没有充分描述)。"研究团队写道。
"我们希望FIDDLE对其他研究人员有用。最终一旦社区开始使用该工具,我们将能够共同完善和建立它。"他们补充说。