科研诚信是科技创新的基石,是科研工作者开展科学工作所需具备的最基本道德基础,也是管理工作人员和政府监管部门必须遵守的行为准则。
自今年上半年多所高校陆续发布通知,称将在本科毕业论文审核过程中,试行加入对文章使用生成式AI风险情况的检测以来,“AI代写论文”行为得到了更加广泛的关注。早在AIGC技术开始应用的初期阶段,学术科研界已经就AIGC的应用问题引发了一系列涉及原创性、学术诚信、伦理法律问题等方面的争议和讨论。这次聚焦于毕业论文的通知更是让人们开始反思AI工具是否会在早期对培养学生的批判性思维和独立思考能力产生负面影响,以及在未来如何做到对AIGC技术的严格监管与妥善利用。
2023年,国内先后发布《生成式人工智能服务管理暂行办法》、《负责任研究行为规范指引(2023)》、《学术出版中AIGC使用边界指南》指出针对生成式人工智能服务要“完善与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引,依规合理使用生成式人工智能工具”;为各环节可否使用AIGC给出建议及使用指导。今年通过的《中华人民共和国学位法》中关于“对代写学位论文等学术不端行为或被撤销学位”的决定,以及高校开始对毕业论文进行AI风险情况检测,显然也是规范AIGC技术应用的进一步补充。
图像造假(包括不当图片重复使用)是科技期刊论文造假的重灾区。早在2017年,发表于Nature期刊的Image doctoring must be halted(必须停止图像篡改)一文中指出,已有研究表明,在生命科学领域多达五分之一的已发表论文中存在一个或多个伪造的图像。
新时期,围绕着科研失信行为的各类表现,构建多样化、立体化的软件工具支撑查处尤为重要。在此背景下,面向论文学术不端治理需求,万方数据公司基于文本相似性检测、图像检测等核心技术及科研诚信大数据资源基础,研发推出了科技论文科研诚信风险综合筛查服务——万方文察,通过一站式综合服务,实现对论文文本相似性、图像复用、AIGC风险、引文及作者等多要素的一次提交,多维检测,帮助教育、科研、出版、管理等诚信监管机构及早发现风险线索并采取相应的措施。
万方数据自主研发的“句子级正交基软聚类倒排”专利检测算法,支持高准确性、高效率的文本检测;AIGC文本识别深度学习模型,则利用神经网络的强大表达能力,判断人机生成文本之间的差异,可识别目前较为通用的AI写作模型;基于图像特征点的检测匹配算法,针对论文内的条带图、造影图、染色图等多类型图片进行复用情况检测,并将图像之间的相同区域通过连线的方式输出匹配结果;科研诚信风险大数据监测与核查技术,通过大数据深度分析和挖掘,实现对科研实体风险监测预警与核查鉴证服务。
文献相似性比对资源库:收录多种来源的学术文献、专业文献、学术网文在内共计超6亿的全文比对资源,根据资源类别等维度建设14个比对资源库。
科技文献图像数据资源库:图像比对库收录来自Pubmed、Elsevier、Springer、Wiley等学术出版机构及开放获取平台的期刊论文、学位论文、会议论文等中英文资源,涵盖领域包括且不限于医学、健康、化学、生物学等,共计5000余万张图片数据。