韩国科学技术高等研究院(KAIST)和SM Instruments开发了一种基于深度学习的咳嗽识别模型,该模型可以实时识别咳嗽声,还可以使用摄像头跟踪和记录咳嗽声及其位置。实时发出声音。咳嗽识别摄像机可用于在公共场所或医院中以非接触方式检测传染病,以监测患者的状况。
咳嗽识别模型和摄像头如何识别,定位和可视化咳嗽的示意图。
研究人员应用基于卷积神经网络的监督学习来开发咳嗽识别模型。在培训和评估中,从Audioset,DEMAND,ETSI和TIMIT收集了各种数据集。从Audioset中提取咳嗽声和其他声音,然后将其他数据集用作背景噪声进行数据增强,以便可以将该模型推广到公共场所的各种背景噪声。
使用七个优化器将五个声学特征(包括频谱图,Mel缩放频谱图和Mel频率倒谱系数)的各种组合进行了训练。将每种组合的性能与测试数据集进行比较。
用于训练咳嗽识别模型的声学功能示例。
在验证性能的测试中,咳嗽识别模型的准确率达到了87.4%。研究人员期望,如果将来在实际环境(例如医院)中进行其他学习,则准确性可能会更高。
该团队将学习到的咳嗽识别模型应用于由麦克风阵列和收集声音的相机模块组成的声学相机。将波束形成过程应用于收集的声学数据,以确定传入声源的方向。综合的咳嗽识别模型确定声音是否为咳嗽。如果将声音识别为咳嗽,则将咳嗽的位置可视化为轮廓图像,并在视频图像中出现的咳嗽声源的位置带有“咳嗽”标签。
咳嗽识别相机可指示实验室环境中的咳嗽位置。
在办公室环境中对咳嗽识别相机进行的一项先导测试表明,即使在嘈杂的环境中,它也可以区分咳嗽事件和其他事件。此外,它还展示了实时追踪咳嗽者位置并统计咳嗽次数的能力。
负责这项研究的Park Yong-Hwa Park教授说:“在像我们正在使用COVID-19那样的大流行情况下,咳嗽检测相机可以有助于预防和及早发现公共场所的流行病。尤其是当用于医院时,可以一天24小时跟踪患者的状况,并支持更准确的诊断,同时减少了医护人员的工作量。”