幾分鐘生成一篇論文,傳統(tǒng)查重工具無法識別——AI代寫論文現(xiàn)象如何科學治理

2024-01-18 08:13:56 來源: 科技日報 作者: 吳葉凡 付麗麗 劉恕 李坤

深瞳工作室出品

科技日報實習記者 吳葉凡 記者 付麗麗 策劃 劉恕 李坤

“太不像話了!學生用人工智能生成的期末論文糊弄我?!苯眨虾D掣咝=處熢谏缃幻襟w上“吐槽”自己遇到的新難題——一些想偷懶的學生開始用人工智能技術完成論文。

以ChatGPT為代表的生成式人工智能技術(AIGC)橫空出世,似乎為人們寫論文提供了新幫手。從提供選題到文稿潤色、從統(tǒng)計分析到圖表制作……其功能之強大,幾乎覆蓋了學術論文寫作過程的方方面面。

面對ChatGPT等工具的潛在風險,爭議隨之而來。不少人質(zhì)疑,人工智能到底能不能用于輔助學術論文寫作。有人認為,它只是提高科研效率的工具。有人則對此持審慎態(tài)度,認為容易引發(fā)大規(guī)模的學術誠信問題。

人工智能技術在論文寫作中的應用程度如何?技術應用的邊界在哪里?如何對這一技術進行有效治理?科技日報記者對此進行了深入采訪。

視覺中國供圖

AI生成的文本“非常水”

有多少人嘗試過用人工智能技術寫論文?去年《自然》雜志對全球博士后的一項調(diào)查發(fā)現(xiàn),約有三分之一的受訪者使用人工智能聊天機器人來優(yōu)化文本、生成或編輯代碼、整理文獻。

當記者嘗試在社交媒體上搜索“AI”“論文”“寫作”等關鍵詞,五花八門的AI論文寫作指導教程映入眼簾。其中大部分宣稱能夠教會用戶在幾分鐘內(nèi)通過幾個簡單的步驟,生成一篇幾萬字的“優(yōu)質(zhì)”論文。這些教程的瀏覽量最高已達數(shù)百萬。

AI真的能生成一篇完整的“優(yōu)質(zhì)”論文嗎?記者按照教程開始了嘗試:“請?zhí)岢雠c民族志紀錄片有關的論文選題?!睅缀鯚o需等待,幾個看起來很“靠譜”的選題就出現(xiàn)在對話框里。

“請就某一選題生成寫作大綱。”幾秒后,7個像模像樣的章節(jié)全部生成完畢?!罢埦吞峋V中某項內(nèi)容,詳細描述2000字。”重復幾次操作后,一篇幾萬字的“論文”很快就完成了。但記者瀏覽后發(fā)現(xiàn),其生成的段落中,存在大部分重復且言之無物的內(nèi)容。

除了說“車轱轆”話,某985高校人工智能專業(yè)碩士研究生溫睿還發(fā)現(xiàn)了此類論文的行文特點:“一般是先寫一句話,然后進行分條論述。當老師看到這樣套路化的內(nèi)容就會猜測,這類文章很大程度上是人工智能寫的?!?/p>

文章開頭那位教師的經(jīng)歷印證了溫睿的發(fā)現(xiàn)?!斑@樣的論文看似條理清晰、層次豐富,但實際上每個層面的內(nèi)容都很少,而且非??斩础N荫R上就懷疑是AI生成的?!痹摾蠋熣f。

不少期刊編輯、審稿人也發(fā)現(xiàn)了同樣的問題。

某人文社科期刊審稿人徐彬向記者透露,用AI寫論文的關鍵在于提示詞。如果提示詞選用的不恰當,就極有可能得到一篇套路化的文章。他目前已經(jīng)收到過五六篇“一眼就能看出來”用AI寫的稿子。

“這些文章的共同特點就是非常水。雖然它生成的語言連貫性不錯,但是缺乏深度,創(chuàng)新性也不強。”對此,徐彬略顯無奈,“綜述類文章是使用AI的重災區(qū),但目前期刊還缺乏相關的評價標準和處理機制?!?/p>

偽造數(shù)據(jù)集更具隱蔽性

在清華大學人工智能國際治理研究院副院長梁正看來,論文核心評價標準包括作者發(fā)揮的創(chuàng)造性、對論文的貢獻程度。一篇大部分由AI生成且隱瞞使用情況的文章,既沒有作者智力的貢獻,也不符合科研誠信的要求,屬于學術造假。

AIGC造成的學術造假還發(fā)生在數(shù)據(jù)領域。記者在采訪過程中,多位業(yè)內(nèi)專家提到了偽造數(shù)據(jù)集問題。相比直接的文本生成,這一方式更具有隱蔽性。

GPT-4的ADA功能是一種結合了計算機編程語言Python的模型,可以執(zhí)行統(tǒng)計分析和創(chuàng)建數(shù)據(jù)可視化。梁正向記者講述了一則真實的案例:國外某機構研究人員先是要求GPT-4 ADA創(chuàng)建一個關于圓錐角膜患者的數(shù)據(jù)集,后又要求它編造臨床數(shù)據(jù),用以支持深板層角膜移植術比穿透性角膜移植術效果更好的結論。但真實的臨床數(shù)據(jù)證明,兩種手術效果并無明顯差別。

“針對某個問題,提出方法來解決,并通過實驗來證明方法的可行性——這是專業(yè)論文的常用模式。人工智能不能做實驗,哪怕它給的實驗數(shù)據(jù)再理想,也都是虛假的。”溫睿認為,虛假的數(shù)據(jù)背離了科學研究的真正意義。

除了數(shù)據(jù)處理,更多人使用AIGC來解釋概念。溫睿發(fā)現(xiàn)AIGC生成的概念簡潔明了,查重率也非常低。但當記者詢問這些概念是否正確時,溫睿顯得有些遲疑:“我也沒有把握,通常默認它是對的?!?/p>

為了驗證AIGC給出答案的準確性,記者就一些新興概念提問,但它給出的答案往往和真正概念毫不沾邊。當記者讓AI生成5篇某領域的重點參考文獻,它又胡編亂造了5個不存在的作者和不存在的文獻。

在人工智能領域,描述AI“一本正經(jīng)地胡說八道”的專業(yè)名詞是“AI幻覺”。哈爾濱工業(yè)大學(深圳)特聘校長助理、教授張民解釋,AI幻覺是指AI會生成貌似合理連貫,但與輸入問題意圖不一致、與現(xiàn)實或已知數(shù)據(jù)不符合或無法驗證的內(nèi)容。這多是由于AI對知識的記憶不足、理解能力不夠、訓練方式固有的弊端及模型本身技術的局限性所導致。

“如果不警惕AI幻覺,很有可能損害科學研究的真實性和客觀性?!绷赫硎?,AI生成的錯誤信息一旦被廣泛傳播,不僅會造成“學術垃圾”泛濫,還將影響學術生態(tài)的良性發(fā)展。

一場你追我逃的“貓鼠游戲”

一項新技術的出現(xiàn),對于社會的發(fā)展往往是把雙刃劍。雖然人工智能技術存在種種隱患,但其在圖文創(chuàng)作、數(shù)據(jù)處理等方面的強大能力已被大多數(shù)人認可?!皻w根結底,我們認為AI將增加人類的智慧,而非取代人類。其使用應在人類監(jiān)督之下,并將道德因素考慮在內(nèi)?!笔┢樟指瘛ぷ匀患瘓F發(fā)言人說。

推動AI向善發(fā)展,需要借助行之有效的技術手段。值得注意的是,AI生成的論文并不能被查重工具檢測出來。因此,國內(nèi)外都在探索研發(fā)專門針對AIGC的檢測工具。

從原理看,AIGC檢測技術是在“用AI打敗AI”。同方知網(wǎng)數(shù)字出版技術股份有限公司副總經(jīng)理柯春曉介紹:“人類的創(chuàng)作往往是隨機且富有靈感的,而接受過大量文本訓練的AI已經(jīng)形成了生產(chǎn)文本的‘固有’范式,傾向于使用‘一致’的結構和規(guī)則,因此具有更高的可預測性?!盇IGC檢測的核心就是依托海量的文本和數(shù)據(jù)樣本,識別出人類和AIGC工具在平均句子長度、詞匯多樣性和文本長度等方面的不同點,從而揪出AI論文“槍手”。

一些期刊出版機構通過檢測工具發(fā)現(xiàn)了AIGC代寫論文的痕跡?!皬娜ツ?月底到現(xiàn)在,我們發(fā)現(xiàn)涉嫌AI寫作的論文數(shù)據(jù)每個月都在上升,大約有六七十篇的文章疑似使用AI的程度超過了50%?!薄吨腥A醫(yī)學雜志》社有限責任公司新媒體部主任沈錫賓介紹。

沈錫賓向記者展示了檢測過程:一篇論文經(jīng)過檢測系統(tǒng)后,會顯示疑似AI生成占全文比重,相關疑似段落也會被標紅。但記者注意到,和傳統(tǒng)的查重報告單明確標注重復痕跡不同,AIGC檢測報告單只是指出某些文本AIGC的“置信度”,并不能回答為什么是這個值。

“這使得報告單往往只起到參考和警示作用?!笨麓簳哉f。

目前,人工智能大模型正在以“周”為單位進行迭代升級。如何適應不斷升級的技術,是擺在AIGC檢測工具面前的一道必答題。

作為使用者的人類本身也在不斷“進化”?!邦愃迫藗兲颖懿橹氐姆绞?,如果人們了解到AI檢測的方式,也可以重新組織相關內(nèi)容,對AI生成的文本進行人工潤色。這樣很可能就檢測不出來了?!鄙蝈a賓說。

作弊與反作弊的過程,實質(zhì)上是場“貓鼠游戲”。只要技術不斷升級,兩者間的博弈就不會停止。目前,AIGC檢測技術仍處在萌芽期。如何對AI生成的虛假圖片、虛假數(shù)據(jù)進行識別仍是難點。因此,人們引入智能檢測技術的同時,也要建立人工審查機制。

“審稿人要當好‘守門人’,發(fā)揮同行評議的作用,仔細甄別判斷論文的數(shù)據(jù)是否和認知存在偏差。出版機構也可以要求作者提供原始數(shù)據(jù),多管齊下,確??蒲姓\信?!鄙蝈a賓說。

技術向善要他律更要自律

加強技術治理的同時,各方都在翹首以盼,期待達成某些共識以及相關政策盡快出臺?!敖逃?、科研、出版各方都很關注AIGC使用的邊界,期待對合理使用AIGC形成一個共識性規(guī)范。”知網(wǎng)技術專家呼吁。

其實,早在去年初,中國科學技術信息研究所(以下簡稱中信所)就牽頭愛思唯爾、施普林格·自然、約翰威立等國際知名出版集團和科研信息分析機構,在廣泛調(diào)研并梳理業(yè)內(nèi)相關研究和探索工作的基礎上,完成了中英文版的《學術出版中AIGC使用邊界指南》(以下簡稱《指南》),并于去年9月20日在國內(nèi)外同步發(fā)布。

去年12月21日,科技部發(fā)布的《負責任研究行為規(guī)范指引(2023)》(以下簡稱《指引》)更是受到了業(yè)內(nèi)的廣泛關注。

《指引》和《指南》就如何負責任地使用AIGC,解答了令科研工作者、期刊編輯、審稿人困惑的一些問題。

首先是披露問題?!吨敢诽岢?,使用生成式人工智能生成的內(nèi)容應明確標注并說明其生成過程,確保真實準確和尊重他人知識產(chǎn)權?!吨改稀分懈翘峁┝寺暶鞯哪0澹┛蒲腥藛T參考。

對于一些人想用AIGC投機取巧的行為,《指引》明確提出,不得使用AIGC直接生成申報材料;《指南》規(guī)定,AIGC不應該用來產(chǎn)生研究假設、直接撰寫整篇論文文本、解釋數(shù)據(jù)、得出研究結論。研究人員使用的數(shù)據(jù)必須是研究人員進行實驗并收集所得,如使用AIGC提供的統(tǒng)計分析結果需進行驗證。

隨著AIGC的使用邊界不斷清晰,越來越多的出版機構達成共識,制定了使用規(guī)范。施普林格·自然集團發(fā)言人介紹說,他們目前已經(jīng)明確了有關作者身份和圖像方面的規(guī)定。例如,人工智能不能擔任作者,真正作者如使用大語言模型須加以透明描述,AI生成的圖像通常不能用于發(fā)表等。

“《科學》雜志在去年1月份發(fā)布的政策是禁止使用任何AIGC工具。而11月16日他們更新了投稿規(guī)則、放寬了限制,表示只要進行了適當披露,使用工具是可以接受的?!敝行潘┦苦嶖┱f道。

“《指引》覆蓋較為全面,對AIGC的使用總體呈現(xiàn)出平衡包容、敏捷治理的態(tài)度,而非一味禁止。這也說明治理的目的并不是阻止科研工作者使用新一代人工智能技術,而是讓科研工作者能夠負責任地去使用?!绷赫岬?,在政策制定的行為框架之下,還要關注學科差異問題。“使用AIGC可能因?qū)W科的不同而有所差異,其倫理問題也要根據(jù)學科特點細化?!?/p>

例如,在自然科學領域;AIGC的強大功能更多體現(xiàn)在數(shù)據(jù)處理領域,如果失范使用,往往難以發(fā)現(xiàn)。而對于人文社科領域,直接使用AIGC生成內(nèi)容的痕跡非常容易被發(fā)現(xiàn),尤其是在高水平的研究當中,優(yōu)劣之分更為明顯。

“因此,對于更加注重文字表達、數(shù)據(jù)資料支持的學科,比如企業(yè)管理、理工科、醫(yī)學等,需要防范產(chǎn)生虛假的數(shù)據(jù)集或論證材料?!绷赫f,“對AIGC使用的披露程度、疑似度的數(shù)據(jù)指標等,都需要學術共同體進一步探索,來推動形成廣泛共識。”

此外,盡管國家出臺了相應的規(guī)則,但從外部監(jiān)督到行業(yè)自治還需要一個過程。AIGC的使用涉及包含研究人員、出版機構、相關行業(yè)組織、政府等方方面面。如何厘清各方關系,各司其職是關鍵。“簡單說,就是出了問題,誰來查?有沒有能力查?”鄭雯雯強調(diào)。

記者了解到,中華醫(yī)學會雜志社在今年1月9日公布了其對于AIGC技術使用的有關規(guī)定。其中不僅涉及了作者要遵守的細則,還提出了查處方式——經(jīng)編輯部研判的違反AIGC使用的情形,將直接退稿或撤稿;情節(jié)嚴重者,將列入作者學術失信名單。

“我們下一步的目標是把存在問題的文章作一個歸納總結,進一步摸清AIGC使用的規(guī)律,為科學治理積累經(jīng)驗?!鄙蝈a賓說。

“盡管新興技術有著潛在風險,但也有著無可比擬的優(yōu)勢,不宜一味封堵,而是要做好引導、合理合規(guī)地使用新技術?!编嶖┍硎荆瑲w根到底,科學研究的主體是人。如果心中的那桿“秤”傾斜了,即使再完善的監(jiān)管政策、再高端的檢測技術,也難以抵擋學術不端的侵襲。

梁正也強調(diào),作為科研誠信的第一責任人,科研人員一定要保持嚴謹?shù)膶W術態(tài)度,關注研究領域的真問題,堅守學術研究的基本原則,如原創(chuàng)性和透明性;明確認識到ChatGPT等工具的潛在風險,避免使用不當而造成學術不端。

“科研誠信和倫理是科研的生命線,科研人員一定要存敬畏、有底線。一旦在這方面有瑕疵,職業(yè)生涯或?qū)⒃崴??!绷赫嵝选?/p>

(文中溫睿、徐彬均為化名)

責任編輯: 王倩