AI生成的研究假说,会优于人类提出的吗?

2025年5月,总部位于旧金山的非营利初创机构FutureHouse的科学家宣布,他们发现了一种治疗视力下降的潜在药物。然而他们不能完全将这项发现归功于自己。因为从文献检索到假说生成再到数据分析,科研流程中的多个环节都是由团队构建的人工智能(AI)完成。

覆盖多个领域,AI在全球范围内加速科研进程——部分驱动力来自于对假说生成这一曾被视为人类独有创造活动的自动化实现。机器如今能在瞬息间扫描海量研究文献以发现研究空白点,从而提出研究者可能忽略的富有价值的研究路径。

但这些生成的假设质量如何?一项同期规模最大的新研究发现,当研究人员对AI生成的假说进行现实检验并邀请人类评估者比对结果时,AI生成的假说仍逊色于人类提出的假说。但差距并不显著,而且这种差距可能不会持续太久。

6月发布于arXiv预印本服务器的这篇论文指出,AI有时会修饰假说,夸大其潜在重要性[1]。该研究主要作者、斯坦福大学计算机科学博士生Chenglei Si表示,研究还表明AI在判断其构想可测试性方面不如人类。

这项研究获得了学界赞誉也引发谨慎态度,部分原因在于原创性评判极为困难。华盛顿大学数据科学家Jevin West指出:"新颖性是科学评估的难题,也是同行评审中最艰巨的任务之一。"

研究组一直针对自然语言处理(NLP)领域的假说进行检验——NLP技术正是支撑大语言模型(LLM)的AI工具的基础。在初期的研究中,研究人员要求Anthropic公司开发的LLM模型Claude 3.5 Sonnet,基于对Semantic Scholar数据库中NLP研究的分析生成数千个创意,并筛选出最具原创性的构想。随后他们聘请NLP专家也提出各种想法。

研究再招募另一组计算机科学家对两组匿名想法的新颖性和可行性进行盲审。令人惊讶的是,AI构想获得了更高的平均分,这一发现在2024年发表在预印本中并引起媒体关注[2]。

但在研究第二阶段情况发生逆转。通过社交媒体及Chenglei Si在学术会议上穿着的T恤等途径宣传后,团队招募了新的付费NLP专家小组,对24个AI生成假说和19个人类假说进行实验验证。团队再次邀请独立评估者对结果新颖性进行评判:AI构想的新颖性评分在10分制中从5.382降至3.406,而人类构想仅从4.596微降至3.968。

Chenglei Si表示最新的研究结果印证了假说检验的重要性:"如果只关注理论构想,某些评审者可能被华美辞藻迷惑。但当你实际检视代码执行或解读时,会发现这只是对已知技术的华丽或新颖表述。"

这一担忧在2月针对50个AI假说的研究中得到呼应:人类评估者判定三分之一属于完全抄袭,另有三分之一部分借鉴前人工作。仅有两个大体新颖,完全创新的数量为零[3]。

非营利组织艾伦人工智能研究所首席科学家Dan Weld评价该研究"非常激动人心"但存在局限性。他指出:其一,研究依赖单一LLM基于广泛文献生成假说,而非使用多个AI工具扫描知名专家的高被引研究;其二,人类也并非新颖性的最佳裁判——既往研究发现实际研究人员对同一计算机科学论文的评分存在显著分歧。

West补充道:实验新颖性最好通过后续数年引用积累来回溯评估。

Chenglei Si表示若将人类验证作为AI假说的常规流程会过于耗时。但他提出,若让LLM基于既往成功实验细节进行训练,其识别新颖假说的能力可能提升。

尽管存在质疑,AI与人类的评分已极为接近——这在几年前足以令研究人员震惊。Weld认为,若未来AI提出多数假说而科学家只负责无法自动化的实验部分,他也不会感到意外。但West指出:"科学是人类参与的社会化过程。若抽离这个本质,科学还剩下什么?更何况这会使科学家陷入'有时令人麻木'的实验工作,剥夺'科研中最有趣的部分'。"

参考文献:

1.    https://arxiv.org/abs/2506.20803v1

2.    https://arxiv.org/abs/2409.04109v1

3.    https://arxiv.org/abs/2502.16487

文章整理自:https://www.science.org/content/article/ai-generated-scientific-hypotheses-lag-human-ones-when-put-test