登录 注册
您现在位置:
首页

 / 

行业资讯

 / 

详情
付费墙和马太效应:AI研究科学文献还存在哪些困境?
来源:微信公众号:科研与诚信 丨  时间:2025-09-23

分享:

“学术界研究了人工智能工具如何帮助研究人员撰写论文,但没有研究它们如何歪曲科学家选择引用的文献。”

近期分别发表在 The Scholarly Kitchen 和 Nature 的两篇文章从不同角度提出了当前 AI 技术在获取和推荐研究论文时的短板:一方面,大语言模型(LLMs)无法获取摘要或开放获取文章之外的研究论文;另一方面人工智能系统往往会反复推送同样的高影响力论文,从而加剧“马太效应”——“拥有的人会得到更多”。

被付费墙困住的AI

谈及现有大语言模型的局限,Josh Nicholson 博士在客座文章“A Smarter Way to License Research Articles for AI”中认为,目前大语言模型尚不能真正处理大多数同行评审研究论文。造成这一现状的原因则是因为大部分学术文献都被锁定在付费专区,无法直接访问。

对出版商而言,不愿与大型人工智能公司合作的原因基于多种角度的考量。例如一些出版商认为人工智能公司存在侵权行为,或有可能严重威胁到自己的相关业务,还有一些出版商则在观望同行的动向。这也在使得面对人工智能及人工智能公司时,部分出版商决定采取封锁对抗人工智能公司;另一部分出版商则选择达成大型授权协议并建立直接合作关系。

在出版商与 AI 技术之间充斥着困惑、威胁以及技术不断迭代的态势下,最终人工智能与研究论文这一网络上最具权威性的内容之间出现了鸿沟。正如网络发展初期,新的信息网页激增的同时缺乏质量控制。即便大语言模型等服务使用便捷且富有价值,然而很难令人判断它们所生成内容来自权威渠道还是自身的幻觉。

幻觉以外:真实信息中的偏见和漏洞

发表在 Nature 的文章“AI chatbots are already biasing research — we must establish guidelines for their use now”指出,尽管 AI 工具可以比搜索引擎更快、更准确地回答问题,但这种效率在导致出版商的网络流量锐减之外,还存在更隐蔽的代价。

当人工智能系统推荐研究论文时,它们总是会加剧马太效应——高被引的作品往往会积累更多的引用,而鲜为人知的研究仍然不可见。作者亲自验证后发现超过 60% 由人工智能推荐的学术论文属于被引用次数最多的前 1% 的文章,这一比例是人工整理参考文献列表的两倍多:人工智能系统已经内化了人类的引用模式,并将其放大到了极致。

尽管 AI 工具的影响力越来越大,但机构在应对人工智能在科学中日益增长的作用方面存在更广泛的盲点。当前有关 AI 的政策重点更多地着力于人工智能辅助写作的道德规范,例如必须建立负责任使用的原则,文章原创性、问责制和透明度的规范等。然而即便研究人员正在仔细检查人工智能生成的句子,却在不知不觉中让系统决定了引用哪些学者、哪些看似相关的方法以及哪些可能有前景的研究方向,并在最终接受了基于偏见的输出结果。

技术与技巧并重

虽然两位作者从不同方向对 AI 技术在学术文献方面的应用指出不足,但也从不同角度提供了相应的解决方案。

对于检索技术Josh Nicholson 博士通过改进引文呈现方式,提出“智能引文”(Smart Citations)这一概念:从引用文章中提取实际的文本内引述语句,展示这些语句在文档中的位置,并标明被引述的观点是得到支持还是遭到反驳,系统性地为研究问题提供可验证的答案。

智能引文(或其等效形式)可以作为向大型语言模型授权研究文章以用于检索增强生成的范例,对跨出版商的统一注释引文数据集进行再授权,并跟踪使用情况。这种方式可以从文章归属权、可见性、来源可靠性和收益四个层面为科研人员和出版商带来明显的益处。

对于检索技巧Zhicheng Lin 认为,对于使用 AI 技术检索文献同样需要相应的指导方针进行规范。

首先,科学家和资助者必须带头开展研究以检验 AI 系统在真实的学术工作流程中的表现。包括评估检索结果中的偏见风险和提示注入之类能够操纵模型输出结果等威胁的应对能力

其次,学术机构须提供培训项目,帮助研究人员了解使用 AI 工具的检索策略和调整提示技巧。例如研究人员想得知关于特定主题的论文,应学会提示工具提供多样化的观点,比如“对 X 理论存在哪些批评?”或者“哪些早期职业研究人员在研究 Y?”

第三,由于资助申请中由人工智能整理的文献综述比重增加,评审小组需要相关接受培训识别人工智能过度依赖少数高被引论文的迹象

对于抱有疑问求解的使用者,有时人工智能所带来的回答会以非常严肃的方式直接影响他们的生活。无论是对于研究者和出版商,都应当思考如何确保社会和世界能获取尽可能优质的信息。

 

[1]  Guest Post — A Smarter Way to License Research Articles for AI  - The Scholarly Kitchen

https://scholarlykitchen.sspnet.org/2025/08/07/guest-post-a-smarter-way-to-license-research-articles-for-ai/

[2]  AI chatbots are already biasing research — we must establish guidelines for their use now  - Nature

https://www.nature.com/articles/d41586-025-02810-5

本网站所有注明“来源:科研诚信网”或“来源:万方数据”的文字、图片和音视频资料,版权均属于科研诚信网所有。未经授权,任何媒体、网站或个人不得转载。取得书面授权转载时,须注明“来源:科研诚信网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
Copyright ©北京万方数据股份有限公司
违法和不良信息举报电话:4000-115-888
举报邮箱:problem@wanfangdata.com.cn
举报专区:https://www.12377.cn/

关注科研诚信网