幾分鐘生成一篇論文，傳統(tǒng)查重工具無法識別——AI代寫論文現(xiàn)象如何科學(xué)治理

2024-01-18 08:13:56 來源: 科技日報(bào) 點(diǎn)擊數(shù)：

深瞳工作室出品

科技日報(bào)實(shí)習(xí)記者吳葉凡記者付麗麗策劃劉恕李坤

“太不像話了！學(xué)生用人工智能生成的期末論文糊弄我?！苯?，上海某高校教師在社交媒體上“吐槽”自己遇到的新難題——一些想偷懶的學(xué)生開始用人工智能技術(shù)完成論文。

以ChatGPT為代表的生成式人工智能技術(shù)（AIGC）橫空出世，似乎為人們寫論文提供了新幫手。從提供選題到文稿潤色、從統(tǒng)計(jì)分析到圖表制作……其功能之強(qiáng)大，幾乎覆蓋了學(xué)術(shù)論文寫作過程的方方面面。

面對ChatGPT等工具的潛在風(fēng)險(xiǎn)，爭議隨之而來。不少人質(zhì)疑，人工智能到底能不能用于輔助學(xué)術(shù)論文寫作。有人認(rèn)為，它只是提高科研效率的工具。有人則對此持審慎態(tài)度，認(rèn)為容易引發(fā)大規(guī)模的學(xué)術(shù)誠信問題。

人工智能技術(shù)在論文寫作中的應(yīng)用程度如何？技術(shù)應(yīng)用的邊界在哪里？如何對這一技術(shù)進(jìn)行有效治理？科技日報(bào)記者對此進(jìn)行了深入采訪。

視覺中國供圖

AI生成的文本“非常水”

有多少人嘗試過用人工智能技術(shù)寫論文？去年《自然》雜志對全球博士后的一項(xiàng)調(diào)查發(fā)現(xiàn)，約有三分之一的受訪者使用人工智能聊天機(jī)器人來優(yōu)化文本、生成或編輯代碼、整理文獻(xiàn)。

當(dāng)記者嘗試在社交媒體上搜索“AI”“論文”“寫作”等關(guān)鍵詞，五花八門的AI論文寫作指導(dǎo)教程映入眼簾。其中大部分宣稱能夠教會(huì)用戶在幾分鐘內(nèi)通過幾個(gè)簡單的步驟，生成一篇幾萬字的“優(yōu)質(zhì)”論文。這些教程的瀏覽量最高已達(dá)數(shù)百萬。

AI真的能生成一篇完整的“優(yōu)質(zhì)”論文嗎？記者按照教程開始了嘗試：“請?zhí)岢雠c民族志紀(jì)錄片有關(guān)的論文選題?！睅缀鯚o需等待，幾個(gè)看起來很“靠譜”的選題就出現(xiàn)在對話框里。

“請就某一選題生成寫作大綱?！睅酌牒?，7個(gè)像模像樣的章節(jié)全部生成完畢。“請就提綱中某項(xiàng)內(nèi)容，詳細(xì)描述2000字?！敝貜?fù)幾次操作后，一篇幾萬字的“論文”很快就完成了。但記者瀏覽后發(fā)現(xiàn)，其生成的段落中，存在大部分重復(fù)且言之無物的內(nèi)容。

除了說“車轱轆”話，某985高校人工智能專業(yè)碩士研究生溫睿還發(fā)現(xiàn)了此類論文的行文特點(diǎn)：“一般是先寫一句話，然后進(jìn)行分條論述。當(dāng)老師看到這樣套路化的內(nèi)容就會(huì)猜測，這類文章很大程度上是人工智能寫的。”

文章開頭那位教師的經(jīng)歷印證了溫睿的發(fā)現(xiàn)?！斑@樣的論文看似條理清晰、層次豐富，但實(shí)際上每個(gè)層面的內(nèi)容都很少，而且非常空洞。我馬上就懷疑是AI生成的?！痹摾蠋熣f。

不少期刊編輯、審稿人也發(fā)現(xiàn)了同樣的問題。

某人文社科期刊審稿人徐彬向記者透露，用AI寫論文的關(guān)鍵在于提示詞。如果提示詞選用的不恰當(dāng)，就極有可能得到一篇套路化的文章。他目前已經(jīng)收到過五六篇“一眼就能看出來”用AI寫的稿子。

“這些文章的共同特點(diǎn)就是非常水。雖然它生成的語言連貫性不錯(cuò)，但是缺乏深度，創(chuàng)新性也不強(qiáng)。”對此，徐彬略顯無奈，“綜述類文章是使用AI的重災(zāi)區(qū)，但目前期刊還缺乏相關(guān)的評價(jià)標(biāo)準(zhǔn)和處理機(jī)制?！?/p>

偽造數(shù)據(jù)集更具隱蔽性

在清華大學(xué)人工智能國際治理研究院副院長梁正看來，論文核心評價(jià)標(biāo)準(zhǔn)包括作者發(fā)揮的創(chuàng)造性、對論文的貢獻(xiàn)程度。一篇大部分由AI生成且隱瞞使用情況的文章，既沒有作者智力的貢獻(xiàn)，也不符合科研誠信的要求，屬于學(xué)術(shù)造假。

AIGC造成的學(xué)術(shù)造假還發(fā)生在數(shù)據(jù)領(lǐng)域。記者在采訪過程中，多位業(yè)內(nèi)專家提到了偽造數(shù)據(jù)集問題。相比直接的文本生成，這一方式更具有隱蔽性。

GPT-4的ADA功能是一種結(jié)合了計(jì)算機(jī)編程語言Python的模型，可以執(zhí)行統(tǒng)計(jì)分析和創(chuàng)建數(shù)據(jù)可視化。梁正向記者講述了一則真實(shí)的案例：國外某機(jī)構(gòu)研究人員先是要求GPT-4?ADA創(chuàng)建一個(gè)關(guān)于圓錐角膜患者的數(shù)據(jù)集，后又要求它編造臨床數(shù)據(jù)，用以支持深板層角膜移植術(shù)比穿透性角膜移植術(shù)效果更好的結(jié)論。但真實(shí)的臨床數(shù)據(jù)證明，兩種手術(shù)效果并無明顯差別。

“針對某個(gè)問題，提出方法來解決，并通過實(shí)驗(yàn)來證明方法的可行性——這是專業(yè)論文的常用模式。人工智能不能做實(shí)驗(yàn)，哪怕它給的實(shí)驗(yàn)數(shù)據(jù)再理想，也都是虛假的?！睖仡ＵJ(rèn)為，虛假的數(shù)據(jù)背離了科學(xué)研究的真正意義。

除了數(shù)據(jù)處理，更多人使用AIGC來解釋概念。溫睿發(fā)現(xiàn)AIGC生成的概念簡潔明了，查重率也非常低。但當(dāng)記者詢問這些概念是否正確時(shí)，溫睿顯得有些遲疑：“我也沒有把握，通常默認(rèn)它是對的?！?/p>

為了驗(yàn)證AIGC給出答案的準(zhǔn)確性，記者就一些新興概念提問，但它給出的答案往往和真正概念毫不沾邊。當(dāng)記者讓AI生成5篇某領(lǐng)域的重點(diǎn)參考文獻(xiàn)，它又胡編亂造了5個(gè)不存在的作者和不存在的文獻(xiàn)。

在人工智能領(lǐng)域，描述AI“一本正經(jīng)地胡說八道”的專業(yè)名詞是“AI幻覺”。哈爾濱工業(yè)大學(xué)（深圳）特聘校長助理、教授張民解釋，AI幻覺是指AI會(huì)生成貌似合理連貫，但與輸入問題意圖不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無法驗(yàn)證的內(nèi)容。這多是由于AI對知識的記憶不足、理解能力不夠、訓(xùn)練方式固有的弊端及模型本身技術(shù)的局限性所導(dǎo)致。

“如果不警惕AI幻覺，很有可能損害科學(xué)研究的真實(shí)性和客觀性。”梁正表示，AI生成的錯(cuò)誤信息一旦被廣泛傳播，不僅會(huì)造成“學(xué)術(shù)垃圾”泛濫，還將影響學(xué)術(shù)生態(tài)的良性發(fā)展。

一場你追我逃的“貓鼠游戲”

一項(xiàng)新技術(shù)的出現(xiàn)，對于社會(huì)的發(fā)展往往是把雙刃劍。雖然人工智能技術(shù)存在種種隱患，但其在圖文創(chuàng)作、數(shù)據(jù)處理等方面的強(qiáng)大能力已被大多數(shù)人認(rèn)可?！皻w根結(jié)底，我們認(rèn)為AI將增加人類的智慧，而非取代人類。其使用應(yīng)在人類監(jiān)督之下，并將道德因素考慮在內(nèi)?！笔┢樟指瘛ぷ匀患瘓F(tuán)發(fā)言人說。

推動(dòng)AI向善發(fā)展，需要借助行之有效的技術(shù)手段。值得注意的是，AI生成的論文并不能被查重工具檢測出來。因此，國內(nèi)外都在探索研發(fā)專門針對AIGC的檢測工具。

從原理看，AIGC檢測技術(shù)是在“用AI打敗AI”。同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司副總經(jīng)理柯春曉介紹：“人類的創(chuàng)作往往是隨機(jī)且富有靈感的，而接受過大量文本訓(xùn)練的AI已經(jīng)形成了生產(chǎn)文本的‘固有’范式，傾向于使用‘一致’的結(jié)構(gòu)和規(guī)則，因此具有更高的可預(yù)測性。”AIGC檢測的核心就是依托海量的文本和數(shù)據(jù)樣本，識別出人類和AIGC工具在平均句子長度、詞匯多樣性和文本長度等方面的不同點(diǎn)，從而揪出AI論文“槍手”。

一些期刊出版機(jī)構(gòu)通過檢測工具發(fā)現(xiàn)了AIGC代寫論文的痕跡?！皬娜ツ?月底到現(xiàn)在，我們發(fā)現(xiàn)涉嫌AI寫作的論文數(shù)據(jù)每個(gè)月都在上升，大約有六七十篇的文章疑似使用AI的程度超過了50%?！薄吨腥A醫(yī)學(xué)雜志》社有限責(zé)任公司新媒體部主任沈錫賓介紹。

沈錫賓向記者展示了檢測過程：一篇論文經(jīng)過檢測系統(tǒng)后，會(huì)顯示疑似AI生成占全文比重，相關(guān)疑似段落也會(huì)被標(biāo)紅。但記者注意到，和傳統(tǒng)的查重報(bào)告單明確標(biāo)注重復(fù)痕跡不同，AIGC檢測報(bào)告單只是指出某些文本AIGC的“置信度”，并不能回答為什么是這個(gè)值。

“這使得報(bào)告單往往只起到參考和警示作用?！笨麓簳哉f。

目前，人工智能大模型正在以“周”為單位進(jìn)行迭代升級。如何適應(yīng)不斷升級的技術(shù)，是擺在AIGC檢測工具面前的一道必答題。

作為使用者的人類本身也在不斷“進(jìn)化”?！邦愃迫藗兲颖懿橹氐姆绞?，如果人們了解到AI檢測的方式，也可以重新組織相關(guān)內(nèi)容，對AI生成的文本進(jìn)行人工潤色。這樣很可能就檢測不出來了?！鄙蝈a賓說。

作弊與反作弊的過程，實(shí)質(zhì)上是場“貓鼠游戲”。只要技術(shù)不斷升級，兩者間的博弈就不會(huì)停止。目前，AIGC檢測技術(shù)仍處在萌芽期。如何對AI生成的虛假圖片、虛假數(shù)據(jù)進(jìn)行識別仍是難點(diǎn)。因此，人們引入智能檢測技術(shù)的同時(shí)，也要建立人工審查機(jī)制。

“審稿人要當(dāng)好‘守門人’，發(fā)揮同行評議的作用，仔細(xì)甄別判斷論文的數(shù)據(jù)是否和認(rèn)知存在偏差。出版機(jī)構(gòu)也可以要求作者提供原始數(shù)據(jù)，多管齊下，確?？蒲姓\信?！鄙蝈a賓說。

技術(shù)向善要他律更要自律

加強(qiáng)技術(shù)治理的同時(shí)，各方都在翹首以盼，期待達(dá)成某些共識以及相關(guān)政策盡快出臺(tái)?！敖逃?、科研、出版各方都很關(guān)注AIGC使用的邊界，期待對合理使用AIGC形成一個(gè)共識性規(guī)范?！敝W(wǎng)技術(shù)專家呼吁。

其實(shí)，早在去年初，中國科學(xué)技術(shù)信息研究所（以下簡稱中信所）就牽頭愛思唯爾、施普林格·自然、約翰威立等國際知名出版集團(tuán)和科研信息分析機(jī)構(gòu)，在廣泛調(diào)研并梳理業(yè)內(nèi)相關(guān)研究和探索工作的基礎(chǔ)上，完成了中英文版的《學(xué)術(shù)出版中AIGC使用邊界指南》（以下簡稱《指南》），并于去年9月20日在國內(nèi)外同步發(fā)布。

去年12月21日，科技部發(fā)布的《負(fù)責(zé)任研究行為規(guī)范指引（2023）》（以下簡稱《指引》）更是受到了業(yè)內(nèi)的廣泛關(guān)注。

《指引》和《指南》就如何負(fù)責(zé)任地使用AIGC，解答了令科研工作者、期刊編輯、審稿人困惑的一些問題。

首先是披露問題?！吨敢诽岢觯褂蒙墒饺斯ぶ悄苌傻膬?nèi)容應(yīng)明確標(biāo)注并說明其生成過程，確保真實(shí)準(zhǔn)確和尊重他人知識產(chǎn)權(quán)?！吨改稀分懈翘峁┝寺暶鞯哪０?，供科研人員參考。

對于一些人想用AIGC投機(jī)取巧的行為，《指引》明確提出，不得使用AIGC直接生成申報(bào)材料；《指南》規(guī)定，AIGC不應(yīng)該用來產(chǎn)生研究假設(shè)、直接撰寫整篇論文文本、解釋數(shù)據(jù)、得出研究結(jié)論。研究人員使用的數(shù)據(jù)必須是研究人員進(jìn)行實(shí)驗(yàn)并收集所得，如使用AIGC提供的統(tǒng)計(jì)分析結(jié)果需進(jìn)行驗(yàn)證。

隨著AIGC的使用邊界不斷清晰，越來越多的出版機(jī)構(gòu)達(dá)成共識，制定了使用規(guī)范。施普林格·自然集團(tuán)發(fā)言人介紹說，他們目前已經(jīng)明確了有關(guān)作者身份和圖像方面的規(guī)定。例如，人工智能不能擔(dān)任作者，真正作者如使用大語言模型須加以透明描述，AI生成的圖像通常不能用于發(fā)表等。

“《科學(xué)》雜志在去年1月份發(fā)布的政策是禁止使用任何AIGC工具。而11月16日他們更新了投稿規(guī)則、放寬了限制，表示只要進(jìn)行了適當(dāng)披露，使用工具是可以接受的?！敝行潘┦苦嶖┱f道。

“《指引》覆蓋較為全面，對AIGC的使用總體呈現(xiàn)出平衡包容、敏捷治理的態(tài)度，而非一味禁止。這也說明治理的目的并不是阻止科研工作者使用新一代人工智能技術(shù)，而是讓科研工作者能夠負(fù)責(zé)任地去使用。”梁正提到，在政策制定的行為框架之下，還要關(guān)注學(xué)科差異問題。“使用AIGC可能因?qū)W科的不同而有所差異，其倫理問題也要根據(jù)學(xué)科特點(diǎn)細(xì)化?！?/p>

例如，在自然科學(xué)領(lǐng)域；AIGC的強(qiáng)大功能更多體現(xiàn)在數(shù)據(jù)處理領(lǐng)域，如果失范使用，往往難以發(fā)現(xiàn)。而對于人文社科領(lǐng)域，直接使用AIGC生成內(nèi)容的痕跡非常容易被發(fā)現(xiàn)，尤其是在高水平的研究當(dāng)中，優(yōu)劣之分更為明顯。

“因此，對于更加注重文字表達(dá)、數(shù)據(jù)資料支持的學(xué)科，比如企業(yè)管理、理工科、醫(yī)學(xué)等，需要防范產(chǎn)生虛假的數(shù)據(jù)集或論證材料。”梁正說，“對AIGC使用的披露程度、疑似度的數(shù)據(jù)指標(biāo)等，都需要學(xué)術(shù)共同體進(jìn)一步探索，來推動(dòng)形成廣泛共識。”

此外，盡管國家出臺(tái)了相應(yīng)的規(guī)則，但從外部監(jiān)督到行業(yè)自治還需要一個(gè)過程。AIGC的使用涉及包含研究人員、出版機(jī)構(gòu)、相關(guān)行業(yè)組織、政府等方方面面。如何厘清各方關(guān)系，各司其職是關(guān)鍵。“簡單說，就是出了問題，誰來查？有沒有能力查？”鄭雯雯強(qiáng)調(diào)。

記者了解到，中華醫(yī)學(xué)會(huì)雜志社在今年1月9日公布了其對于AIGC技術(shù)使用的有關(guān)規(guī)定。其中不僅涉及了作者要遵守的細(xì)則，還提出了查處方式——經(jīng)編輯部研判的違反AIGC使用的情形，將直接退稿或撤稿；情節(jié)嚴(yán)重者，將列入作者學(xué)術(shù)失信名單。

“我們下一步的目標(biāo)是把存在問題的文章作一個(gè)歸納總結(jié)，進(jìn)一步摸清AIGC使用的規(guī)律，為科學(xué)治理積累經(jīng)驗(yàn)?！鄙蝈a賓說。

“盡管新興技術(shù)有著潛在風(fēng)險(xiǎn)，但也有著無可比擬的優(yōu)勢，不宜一味封堵，而是要做好引導(dǎo)、合理合規(guī)地使用新技術(shù)。”鄭雯雯表示，歸根到底，科學(xué)研究的主體是人。如果心中的那桿“秤”傾斜了，即使再完善的監(jiān)管政策、再高端的檢測技術(shù)，也難以抵擋學(xué)術(shù)不端的侵襲。

梁正也強(qiáng)調(diào)，作為科研誠信的第一責(zé)任人，科研人員一定要保持嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)態(tài)度，關(guān)注研究領(lǐng)域的真問題，堅(jiān)守學(xué)術(shù)研究的基本原則，如原創(chuàng)性和透明性；明確認(rèn)識到ChatGPT等工具的潛在風(fēng)險(xiǎn)，避免使用不當(dāng)而造成學(xué)術(shù)不端。

“科研誠信和倫理是科研的生命線，科研人員一定要存敬畏、有底線。一旦在這方面有瑕疵，職業(yè)生涯或?qū)⒃崴汀！绷赫嵝选?/p>

（文中溫睿、徐彬均為化名）

責(zé)任編輯：王倩

幾分鐘生成一篇論文，傳統(tǒng)查重工具無法識別——AI代寫論文現(xiàn)象如何科學(xué)治理

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

幾分鐘生成一篇論文，傳統(tǒng)查重工具無法識別——AI代寫論文現(xiàn)象如何科學(xué)治理

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

幾分鐘生成一篇論文，傳統(tǒng)查重工具無法識別——AI代寫論文現(xiàn)象如何科學(xué)治理

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁

3.暫不升級，繼續(xù)瀏覽