2024年1月16日,湖北某高校动物科学技术学院、动物医学院教授黄某若课题组的11名硕士、博士研究生,通过一份125页图文并茂的举报材料,实名举报其导师黄某若多个方面涉嫌学术不端的问题。在这份125页举报信中有大量图像组的比对和相应的文字说明,详细揭露了这些论文中,伪造篡改图像数据、同样的图像或数据组出现在不同的多篇论文中、使用图像混乱、不明来源数据应用、对已有数据进行“筛选”“加工”等不端行为,可见,图像及数据问题已经成为黄教授课题组学术不端问题的重灾区,也是最证据确凿的部分。
图像造假成重灾区
国内外的研究与行动
全球学术界为应对图像学术不端问题也在积极采取行动。早在2020年,国际科技出版机构明确图像篡改和复用属于不端行为;Elsevier、Wiley等成立跨出版商工作组,共同制定了用于查核论文图像的严格标准;2021年,STM发出Integrity-hub倡议,提出图像篡改与复用的检测是三大工作组之一,推动图像治理往系统化、标准化、规模化方向发展。
万方数据公司采用先进的算法模型,基于强大的数据底座,推出万方文察产品,一站式实现对科技论文多要素风险的综合察验,涵盖了文本相似性、图像复用、AIGC文本、引文及作者等风险检测。为教育、科研、出版、管理等诚信监管工作提供便捷服务支撑。
图2 万方文察产品首页
图像复用检测:以千万量级图像库为数据底座,基于卷积神经网络+Milvus向量库+特征点匹配的图像复用检测算法,实现论文篇内图像复用检测及图像库比对检测。对于论文中染色图、实物图、条带图、造影图等类型图像的复用情况均有良好识别效果。
图3 万方文察-图像库检测效果
AIGC检测:采用AIGC文本识别深度学习模型,利用神经网络的强大表达能力,判断人机生成文本之间的差异,针对ChatGPT、文心一言等模型生成的中英文文本有良好的识别效果。
万方文察通过先进的技术和简便的流程,真正实现“一次提交、多维检测”,论文一经送检,同步启动多检测引擎,最终结果在一份报告中体现,便于结果管理。
图5 用户操作流程图
图6 万方文察-在线报告
万方文察产品入口:
https://cx.wanfangdata.com.cn/verification
参考资料:
[1]徐奇智,范晴. 中国学者图像学术不端撤稿情况分析[J]. 中国科技期刊研究,2023,34(10):1255-1263. DOI:10.11946/cjstp.202304280317.
[2]徐彤阳,任浩然. 数字图书馆视域下学术论文图像篡改造假检测研究[J]. 现代情报,2018,38(7):81-87.DOI:10.3969/j.issn.1008-0821.2018.07.012.