如果不借助图片中框选的标记提示,你能发现这些图片中重复的部分吗?
以上图片来自一篇被指控学术不端而接受调查的论文[1]。类似这种存在问题图片的论文早已屡见不鲜。Elisabeth Bik及其同事在相关研究中量化分析了1995年至2014年间发表的20000多篇论文中的图片,发现近4%的论文包含可疑图片。Bik指出,现在论文发表数量与日俱增,论文中出现图片的数量也水涨船高,可疑图片也会有增无减[2]。
近年来,继论文文本抄袭、剽窃问题引起重视后,论文图片可能存在的诚信问题也逐渐受到关注,明确科技论文中图片操作的界限在哪里、图片不端行为有哪些也都同样重要。
图片复用=学术不端?
并非所有的图片复用都属于学术不端行为。同一篇论文中,有时会出于设置对照组合的需要,将论文中的图片合理复用;或是由于论文中图片量较多导致误用的学术不当行为。
图片在单篇文章内重复使用:即在同一篇文章中有完全相同的图片,但表示不同的处理结果;或同一文章中将一张图片经过不同剪切拼接后,表示不同的处理结果。被认定学术不端的图片复多是结合了图片篡改行为后的复用。
篡改图片的几种形式:
图片改版
:对原图片进行缩放、裁切、涂改等处理后作为新图片使用,没有声明图片来源。
图片拼合
:将几张图片拼合成一张图片,缺乏图片拼合的说明和声明,这会误导读者产生图片真实性的错误判断。
图片刻意改动
:对图片进行刻意的改动或修改以示实验结果,属于图片的篡改行为,是图片造假的严重形式。
图片重组:将不同图片或图片的部分进行拼接组合,以示为新的实验图片,这也属于图片信息的严重失真行为。
图片在多篇文章内重复使用:相同的图片在不同的文章中重复使用,是目前发现比较多的一种不当图片重复形式,大多情况下属于公认的学术不端行为。同时这种行为可能存在隐含的论文工厂问题,或实验图片买卖情况。
“Yes, eight.”
图片修饰=伪造篡改?
除了论文图片中某部分或完整重复导致的学术不端行为,有时对图片的过度修饰也可能使图片信息失真,最终被认定为篡改图片的结果。但是并非所有的“P图”都等同于伪造篡改。
《中国科学报》曾就此类问题采访了相关专家。空天院学会与期刊部主任闫珺认为,在某些领域或科研实验中,一定程度的图像处理不可避免,作者对图像进行合理规范的处理是被允许的。比如对图片进行去噪声,使用荧光显微照片增强特定效果等操作。“只要不隐藏、消除或歪曲原图的信息,(图像处理)并不属于学术不端的范畴[4]。”
2010年发表在《科学与工程伦理》的文章Avoiding Twisted Pixels: Ethical Guidelines for the Appropriate Use and Manipulation of Scientific Digital Images[5]列出了12条关于图像处理的相关意见,至今依然具有一定参考意义。

▣ 只能对原始图像数据文件的副本进行操作处理(必须始终保证原始数据文件的安全且不作任何改变!)。
▣ 需要相互比较的图像应该在同一条件下获得,并且图像后期处理方式也应该统一。
▣ 复制来自同一图像的其他部分或不同图像的物体是非常值得怀疑的操作。
▣ 强度测量应在经过统一处理的图像数据进行,并且应将数据基于已知的标准校正。
更多有关论文图像处理的内容及原理可以参考ImageJ软件网站的Principles of Scientific Imaging[6](科学成像原理)。
技术加持:自动化图片检测
在早期,以Elisabeth Bik团队为代表的“学术侦探”基本依靠肉眼发现论文中图像复用,甚至是多篇论文交叉复用图像的不端行为。正如文章开头的图片案例所示,对图像的识别与判定仅凭人工显然是项颇有难度的工作。人工检查+举报行为发现图片不端行为的方式在论文诚信案件多发的环境下相形见绌,导致论文图片一度成为学术不端的“死角”。
随着图像识别等相关技术进步,论文图片检测也逐渐开始在技术层面得到支持。2018年2月,《Nature》刊登文章称研究人员终于开发出可以在数千篇论文中发现重复图像的工具[7]。同时国际上的科技出版发行机构迅速作出反应:2020年,Elsevier, Wiley, SN和T&F出版巨头合力成立跨出版商工作组,共同制定了一套用于查核论文图像的严格标准,并为查核论文图像软件制定标准。

爱思唯尔出版服务负责人Catriona Fennell指出,出版商最终需有一个类似CrossCheck中央服务器的共享图片数据库,来检查论文之间图片的重复使用问题。“我们需要在图片领域进行同样的合作。”[8]
目前,基于图片数据库的图像相似性检测功能已经被证实可行并得到大规模应用。以万方文察为例,系统通过对学术论文pdf的提图、切图、向量化三个步骤建立图像库,目前线上服务图像库已收录来自Pubmed、Elsevier、Springer、Wiley等学术出版机构及开放获取平台的论文,涵盖的领域包括且不限于医学、健康、化学、生物学等,共计5000余万张图片数据。
图片检测功能的实现采用基于图像特征点的检测匹配算法,针对论文内实物图、条带图、造影图、染色图等类型图片进行复用情况检测,包括图片复制、裁剪、缩放、旋转等操作。识别复用来源分为“篇内相似图片”及“库内相似图片”。

自论文图片检测技术发展至今投入使用的几年间,各大期刊出版商已经陆续开始引入图片筛查服务。Elisabeth Bik曾在谈及图片打假工作时表态,如果软件能在同行评议中发现手稿里存在的图片问题,将是“极好的”发展:“希望我能少做点工作。”但是少做不等于不做,判断不端行为是一项需要严谨对待的工作。系统虽然能极大的减轻评审人员的压力,但目前任何算法都不能100%代替人工审核,依然需要有学科经验的评审专家结合论文上下文对结果作出进一步的判断。从长远来看,“更多地关注严谨性和数据的可重复性,对学术不端可能带来的影响和后果要保持敬畏之心”才能最好地解决图片滥用问题。
参考内容:
[1] 图片误用OR学术不端,潜在诚信风险如何规避踩“雷”?
https://mp.weixin.qq.com/s/qk3xfJflJDw0bfyOpzxB9Q
[2] 借AI“慧眼”鉴别可疑论文图片|科技创新世界潮 - 中国科技网
http://m.stdaily.com/guoji/shidian/202403/6cf03eb67db64c08b8bb0c705790790a.shtml
[3] 论文图片作假:侥幸机会小,撤稿代价大 - 知识分子
http://www.zhishifenzi.com/depth/depth/9669.html
[4] 论文P图等于造假?图像处理你踩过多少“雷” - 中国科学报
https://mp.weixin.qq.com/s/hptmii64VzJWhe4__-fT8g
[5] Cromey, D.W. Avoiding Twisted Pixels: Ethical Guidelines for the Appropriate Use and Manipulation of Scientific Digital Images. Sci Eng Ethics 16, 639–667 (2010). https://doi.org/10.1007/s11948-010-9201-y
[6] Principles of Scientific Imaging - ImageJ
https://imagej.net/imaging/principles
[7] Researchers have finally created a tool to spot duplicated images across thousands of papers
https://www.nature.com/articles/d41586-018-02421-3
[8] Publishers launch joint effort to tackle altered images in research papers - Nature
https://www.nature.com/articles/d41586-020-01410-9