總編輯圈點(diǎn)|提高大語(yǔ)言模型可信度——新方法助生成式AI破除“幻覺(jué)”

2024-06-22 10:42:09 來(lái)源: 科技日?qǐng)?bào) 點(diǎn)擊數(shù):

科技日?qǐng)?bào)記者?張夢(mèng)然

人工智能(AI)在給出準(zhǔn)確答案的同時(shí),也會(huì)有一些“胡亂輸出”令人難辨真假,這被稱(chēng)為“幻覺(jué)”(hallucination)。而新一期《自然》雜志發(fā)表的一項(xiàng)研究報(bào)道了一種新方法,能檢測(cè)大語(yǔ)言模型(LLM)產(chǎn)生的“幻覺(jué)”,即該方法能測(cè)量生成回答的含義的不確定性,或能提升LLM輸出答案的可靠性。


研究團(tuán)隊(duì)采用一種新方法可以對(duì)生成式AI給出的答案“把關(guān)”
圖片來(lái)源:《自然》網(wǎng)站

類(lèi)似ChatGPT和Gemini等LLM,是能閱讀和生成自然人類(lèi)語(yǔ)言的AI系統(tǒng)。不過(guò),這類(lèi)系統(tǒng)很容易產(chǎn)生所謂“幻覺(jué)”,即生成不準(zhǔn)確或沒(méi)有意義的內(nèi)容。檢測(cè)LLM出現(xiàn)的這種錯(cuò)誤非常難,因?yàn)檫@些回答的呈現(xiàn)方式看起來(lái)很可信。

英國(guó)牛津大學(xué)研究團(tuán)隊(duì)此次嘗試量化一個(gè)LLM產(chǎn)生此類(lèi)錯(cuò)誤的程度,從而判斷生成的內(nèi)容有多忠于提供的源內(nèi)容。他們的方法能檢測(cè)“編造”——這是幻覺(jué)的一個(gè)子類(lèi)別,特指不準(zhǔn)確和隨意的內(nèi)容,常出現(xiàn)在LLM缺乏某類(lèi)知識(shí)的情況下。這種方法考慮了語(yǔ)言的微妙差別,以及回答如何能以不同的方式表達(dá),從而擁有不同的含義。團(tuán)隊(duì)的研究表明,他們的方法能在LLM生成的個(gè)人簡(jiǎn)介,以及關(guān)于瑣事、常識(shí)和生命科學(xué)這類(lèi)話題的回答中識(shí)別出“編造”內(nèi)容。

在同時(shí)發(fā)表的新聞與觀點(diǎn)文章中,澳大利亞皇家墨爾本理工大學(xué)科學(xué)家指出,該方法由一個(gè)LLM完成,并通過(guò)第三個(gè)LLM進(jìn)行評(píng)價(jià),等于在“以毒攻毒”。文章寫(xiě)道,“用一個(gè)LLM評(píng)估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差。”不過(guò),團(tuán)隊(duì)指出他們的方法有望幫助用戶理解在哪些情況下使用LLM的回答需要注意,也意味著可以提高LLM在更多應(yīng)用場(chǎng)景中的置信度。

近兩年,國(guó)內(nèi)外各種人工智能大模型如雨后春筍般涌現(xiàn),它們陸續(xù)在聊天機(jī)器人、智能搜索、文本生成等豐富多樣的場(chǎng)景中落地應(yīng)用。以國(guó)內(nèi)為例,目前用戶可通過(guò)智能手機(jī)下載多款人工智能大模型應(yīng)用,并與之聊天互動(dòng)。不過(guò),在應(yīng)用過(guò)程中,人工智能大模型偶爾會(huì)“胡言亂語(yǔ)”的問(wèn)題也受到關(guān)注。利用技術(shù)手段檢測(cè)它們是否在“胡言亂語(yǔ)”很有必要,從根本上避免人工智能大模型出現(xiàn)“幻覺(jué)”更是急需破解的難題。

責(zé)任編輯:常麗君

抱歉,您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式,這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí),繼續(xù)瀏覽

繼續(xù)瀏覽