登录 注册
您现在位置:
首页

 / 

行业资讯

 / 

详情
AI生成与图片重复:论文学术不端检测的新型挑战
来源:科研与诚信 丨  时间:2024-08-02

分享:

科研诚信是科技创新的基石,是科研工作者开展科学工作所需具备的最基本道德基础,也是管理工作人员和政府监管部门必须遵守的行为准则

AIGC的应用对科研领域带来新型挑战

自今年上半年多所高校陆续发布通知,称将在本科毕业论文审核过程中,试行加入对文章使用生成式AI风险情况的检测以来,“AI代写论文”行为得到了更加广泛的关注。早在AIGC技术开始应用的初期阶段,学术科研界已经就AIGC的应用问题引发了一系列涉及原创性、学术诚信、伦理法律问题等方面的争议和讨论。这次聚焦于毕业论文的通知更是让人们开始反思AI工具是否会在早期对培养学生的批判性思维和独立思考能力产生负面影响,以及在未来如何做到对AIGC技术的严格监管与妥善利用。

2023年,国内先后发布《生成式人工智能服务管理暂行办法》《负责任研究行为规范指引(2023)》《学术出版中AIGC使用边界指南》指出针对生成式人工智能服务要“完善与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引,依规合理使用生成式人工智能工具”;为各环节可否使用AIGC给出建议及使用指导。今年通过《中华人民共和国学位法》中关于“对代写学位论文等学术不端行为或被撤销学位”的决定,以高校开始对毕业论文进行AI风险情况检测,显然也是规范AIGC技术应用的进一步补充

学术论文中的图像造假问题尤为突出

图像造假(包括不当图片重复使用)是科技期刊论文造假的重灾区。早在2017年,发表于Nature期刊的Image doctoring must be halted(必须停止图像篡改)一文中指出,已有研究表明,在生命科学领域多达五分之一的已发表论文中存在一个或多个伪造的图像。

究其原因,一方面图像数据的获取渠道变得愈发丰富和便捷,尤其在人工智能技术与数字图像技术结合后,论文中图像的产出速度和拟真程度都得到显著提升。另一方面,没有合适的辅助工具,编辑及专家需要阅读大量同类型论文并掌握相关领域知识,但这显然有一定难度。
针对图 像造假问题,国际上的科技出版发行机构最先作出反应,明确图像篡改以及复用属于不端行为,并成立相关工作组,如: 2020年,Elsevier, Wiley, SN和T&F出版巨头合作成立“跨出版商工作组”,为查核论文图像软件制定标准。 此外还有以Pubpeer为代表的发表后论文同行评议论坛、专注于学术打假的Bik团队等。各大期刊也在近两年陆续开始接入图像检测技术,以辅助目前随论文发表数量与日俱增的图片审查工作。
仅做文本查重不够全面
在过去的十余年中,科技信息服务领域构建了以科技论文文本内容为检测对象的文字相似性检测工具,用以支撑投稿、学位论文提交等环节的查处工作。但随着学术论文不端问题的日益复杂与隐蔽,诚信风险早已不仅仅只是文本上的抄袭,在期刊论文发表阶段的一稿多发、虚假同行评议乃至论文工厂,作者不当署名,失信惩戒,基金资助的虚假标注,图像的重复使用,篡改造假,参考文献虚假标注或引用问题论文等都需要认真甄别、仔细核对,避免可能存在较大的失信风险

万方文察
论文科研诚信风险综合筛查服务

新时期,围绕着科研失信行为的各类表现,构建多样化、立体化的软件工具支撑查处尤为重要。在此背景下,面向论文学术不端治理需求,万方数据公司基于文本相似性检测、图像检测等核心技术及科研诚信大数据资源基础,研发推出了科技论文科研诚信风险综合筛查服务——万方文察,通过一站式综合服务,实现论文文本相似性、图像复用、AIGC风险、引文及作者等多要素的一次提交,多维检测,帮助教育、科研、出版、管理等诚信监管机构及早发现风险线索并采取相应的措施

A 高效、准确、专业的文本、图像检测技术

万方数据自主研发的“句子级正交基软聚类倒排”专利检测算法,支持高准确性、高效率的文本检测;AIGC文本识别深度学习模型,则利用神经网络的强大表达能力,判断人机生成文本之间的差异,可识别目前较为通用的AI写作模型;基于图像特征点的检测匹配算法,针对论文内的条带图、造影图、染色图等多类型图片进行复用情况检测,并将图像之间的相同区域通过连线的方式输出匹配结果;科研诚信风险大数据监测与核查技术,通过大数据深度分析和挖掘,实现对科研实体风险监测预警与核查鉴证服务。

B 业界领先的 大数据资源底座

文献相似性比对资源库:收录多种来源的学术文献、专业文献、学术网文在内共计超6亿的全文比对资源,根据资源类别等维度建设14个比对资源库。

科研诚信风险大数据资源 :应用科研诚信大数据池串联全方位数据轨迹, 包括论文撤稿信息、论文 发表后同行质疑信息、 学术预警期刊数据、公开惩处数据信息及并基于图像、相似比等回溯检测信息的 筛查数据等。通过实体抽取关联做到诚信风险的实时动态监测, 助于发现不同环节和不同程度的科研失信风险线索。

科技文献图像数据资源库图像比对库收录来自Pubmed、Elsevier、Springer、Wiley等学术出版机构及开放获取平台的期刊论文、学位论文、会议论文等中英文资源,涵盖领域包括且不限于医学、健康、化学、生物学等,共计5000余万张图片数据。

便捷的操作使用流程
万方文察操作简单,用户只需填写基础信息后,将论文提交至系统中即可, 系统会自动对论文各项数据进行分析和比对,察验风险问题,并提供详实的察验报告。
D 综合性展示察验结果
以指标形式展示论文文本相似比、AI生成文本比、图片复用情况、作者风险情况、基金风险情况、参考文献风险情况等多维度结果指标,以及论文本身撤稿、学术质疑等情况。
万方文察综合性察验报告
万方文察服务入口:
https://cx.wanfangdata.com.cn/verification
本网站所有注明“来源:科研诚信网”或“来源:万方数据”的文字、图片和音视频资料,版权均属于科研诚信网所有。未经授权,任何媒体、网站或个人不得转载。取得书面授权转载时,须注明“来源:科研诚信网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
Copyright ©北京万方数据股份有限公司
违法和不良信息举报电话:4000-115-888
举报邮箱:problem@wanfangdata.com.cn
举报专区:https://www.12377.cn/

关注科研诚信网