今天刷到一篇专家文章,曾有幸听过黄老师的课,看到这篇文章后受益匪浅——数据清洗很重要,分享给大家~

数据清洗技术是大数据和人工智能应用技术很重要的一环

        人工智能是当前推动研究创新的重要支撑,其在医学领域的深度应用是当前的研究热点和发展方向,也是落实“健康中国”战略的重大创新举措与实践。本期《医信专家“面对面”》由黄智生为我们讲授他对于人工智能这些问题的看法。

https://dr2pp.oss.ns-svc.cn/Ij/Ijew/IjewbBLof8qhAG3oZjB7.png

      1.医学人工智能的研发是基于大量的诊疗数据,数据数量和质量直接决定了产品开发以及它的结果运算。如果数据存在质量问题,比如不同医生可能受制于自己水平所限,存在漏诊和误诊的情况,那么也会影响基于此类数据所研发的产品。如何提高数据质量的收集,或者规避此类问题的产生

答:面向医学临床大数据应用开发过程中,很重要的一步就是数据清洗。这就是要采用人工智能和大数据的技术手段对原始的临床数据进行分析和处理,发现那些低质量的数据、错误的数据、噪音的数据(即混杂进来的不准确的数据)等并作出适当的数据加工和处理。这包括修改不准确的数据,剔除无法改进的错误数据,对原有的缺失数据进行补齐等技术手段。这些手段可以采用对应的人工智能技术方法,包括机器学习和深度学习的办法以及通过知识图谱技术对数据进行深度语义分析和逻辑推理分析的方法。

所以说,数据清洗技术是大数据和人工智能应用技术很重要的一环。解决了数据清洗问题,就能大大提高临床数据的质量,从而也不用太担心数据不足的问题。

2.人工智能在医疗领域的应用,涉及到大量的患者隐私信息,如何确保数据的安全和隐私保护

答:临床数据的数据安全和个人隐私保护问题是人工智能在医疗领域的应用开发中非常重要的问题,必须把这个问题置于最重要的问题来对待。现有的对电子病例数据进行匿名化处理已经有比较好的技术手段能够做到。如何把涉及到个人隐私数据(如姓名,地址,联系方式等)进行匿名化处理已经有比较成熟的工具或算法可以应用。这已经不构成大的问题。在许多涉及人工智能及其大数据的应用开发的处理和临床决策支持中,并不需要涉及到个人隐私数据,所以进行了匿名化处理后的临床数据包括电子病历数据并不会妨碍临床决策过程的正确性判别。

当然有一些涉及到个人隐私数据信息是分散在电子病历的自然语言描述的自由文本之中。这对于运行通常的匿名化处理算法和程序会带来一定的困难。这就需要引入更高端的人工智能算法,包括机器学习,文本挖掘,自然语言处理,语义技术与知识图谱的方法。

3.人工智能在医疗领域的应用,涉及到伦理和法律问题,如何做到遵守伦理和法律规定

答:人工智能在医疗领域的应用中所涉及到伦理和法律问题都是处于不断的完善之中。国家也在不断出台各种相关的法规来规范人工智能技术在医疗领域中的应用。对于已经出台的法律政策等都必须严格去执行。对于尚未出台的法律政策所留下来的空白区,从某种意义上讲是可以自己掌握来处理的。当然,这并不等于说自己就可以任意决定所做的行为。这里面最起码是要遵守基本的道德规范和伦理原则,即在任何情况下都不能出于盈利目的来伤害他人的可能利益,这也包括可能给他人带来生活上的代价等。生命安全和个人的生活不受干扰,个人信息不能被滥用等都构成了人工智能和大数据应用中最基础的伦理原则。

以上内容转自 https://mp.weixin.qq.com/s/XBjTb4icd8oIbd6APmgTgA?poc_token=HH4dW2WjuVmZciA0OZ-C6LL32JlRz5-yjwrtRw5x