世界上最遥远的距离,不是两个人在天涯海角,而是两个人(一个医生,一个工科)坐在桌子对面,谈了一个小时,却发现一句都听不懂对方在说什么。
这是一种真实情况,我曾经坐在两个人中间,试图给他们当翻译(虽然两个人说的都是中文),我需要让医生明白,什么是标签、什么是召回率、什么是特征工程,我也同时需要告诉工科技术人员,我们要实现的目的是什么、数据如何收集等各种问题。
医工交叉目前很火,目前医学很多成果都是医工交叉的产物,如语音识别、疾病面容识别等。我们自己也在不断探索如何跟工科更好的结合,这并不容易。真正的医工交叉,不是简单地“医院收集数据、工科建立模型”,这太肤浅,而且往往容易因为沟通不充分而产生歧义。然而让医生和工科整天在一起沟通交流(各自说着对方听不懂的术语,而且都以为自己说的是最浅显的话),既痛苦且耗不起时间。
如果说还有一种解决这种令人不安的局面的方法,那就是有个医学统计专业人员在二者之间翻译一下。医学统计学家在以前承担着各种临床试验设计、流行病学调查设计、数据清洗与管理、数据统计分析等各种责任,现在华丽的转身,变成了医学与工科沟通的桥梁。
在目前“大数据”充斥着各个领域的时代,仍有不少人认为统计学已经过时了,一味热衷于各种机器学习、深度学习。不少医学统计学研究生也在学习期间紧张地开始看各种机器学习的书籍(当然这是好事,但如果基础没打好,也可能会越看越糊涂)。然而,诺奖得主托马斯·萨金特和任正非却说,“人工智能就是统计学”(虽然这句话存在争议),这无疑给统计学专业人员吃了一个定心丸。
所谓“人工智能就是统计学”这句话,就算不能说百分百正确,但绝对是有道理的。其实各种机器学习中的术语,很多都是统计学中的变形,然而这很难统一。且不说统计学与机器学习领域的统一,单是统计学的同一名词在不同应用领域就存在不同叫法(如稳健vs鲁棒、甚至变量的类型都不统一,如医学中就没有定距变量这种说法)。
不少医学统计学专业的研究生,就对机器学习中所谓的“标签”、“特征工程”等各类术语茫然不知所措。同样,跟工科老师提“变量”、“指标”这些,他们有时也需要反应一会儿。尽管工科老师可以做出最复杂的模型,有时却难以理解像“关联”这种最简单的词在医学中的表达。因为工科生眼中看到的,往往只是数据本身,而医学的数据分析,却渗入了大量的设计思路。
机器学习往往简单粗暴,就是不断调优,最终接近目标。简单地说,你想要一根香肠,你把肉从机器这头塞进去,那一头就努力给你出来一根符合你需求的香肠,中间怎么做的,你不用管(事实上,你可能也管不了)。
统计学则并非如此,你想要一根香肠,需要自己精挑细选,准备好各种原料(肉、葱姜蒜、油盐酱醋等),然后一点一点尝试,最终在自己的不断努力下,终于做出一个符合自己口味的香肠。机器最多只是帮你做成香肠的样子,调馅什么的都是自己手工完成的。
如何利用统计学的技术做出一个符合需求的香肠,这个要求难度比较高。新手和老手做出的绝对不一样。因为新手往往可能缺乏经验,不知道如何选各种原料,如果做得效果不好,可能也不知道如何分析问题出在哪里。而资深统计学家则可以快速想到各种可能的问题并加以解决。
如果利用机器学习技术,你想让机器帮你调馅,你只负责把肉塞到机器里,这时候新手和老手可能差别并不大,因为大家都知道怎么把肉放进去,至于机器里面如何调馅(参数调优),你就放心地交给机器好了。然而一个很关键的问题是,如果你选的原料不好,这个机器再厉害,也不可能做出一个口感很好的香肠。机器可以帮你调馅,但绝不可能帮你选原料。这一点是绝对是资深统计学家值得夸耀之处,也是不可替代之处。
有的医学统计研究生(包括一些老师)很喜欢这些机器学习方法,却轻视传统的统计学方法。我一个朋友就曾收到一个审稿意见(文章目的是用logistic回归建立一个预测模型),建议他不要用logistic回归建模,改成所谓的“高级”统计方法。听起来很可笑,然而的确有一些人对这些所谓的“高级统计方法”着迷。
事实上,统计学和机器学习技术不是什么低级和高级的划分,如果真要说的话,统计学应该是机器学习之父(个人观点),虽然有的机器学习方法表面上看起来好像跟统计学没什么关系,但深入进去,其实是满满对统计学的敬意。不能因为二代变得似乎先进了,就忘了上一代的功劳。比如logistic回归和神经网络,能说神经网络比logistic回归高级?
相比机器学习技术而言,医学统计学的分析需要更多经验积累,同一份数据,有经验的统计学家可能会更容易发现数据背后的一些问题所在,可以更好地找出数据背后隐藏的真正规律。而新手有时则会错失这些规律,看不到一些提示或信息,有时可能会沉浸在一些似乎有意义的假阳性中沾沾自喜,有时则会为未能发现有意义的结果而苦恼。
from https://m.medsci.cn/article/show_article.do?id=90e619011475