總編輯圈點|提高大語言模型可信度——新方法助生成式AI破除“幻覺”

2024-06-22 10:42:09 來源: 科技日報點擊數(shù)：

科技日報記者?張夢然

人工智能（AI）在給出準(zhǔn)確答案的同時，也會有一些“胡亂輸出”令人難辨真假，這被稱為“幻覺”（hallucination）。而新一期《自然》雜志發(fā)表的一項研究報道了一種新方法，能檢測大語言模型（LLM）產(chǎn)生的“幻覺”，即該方法能測量生成回答的含義的不確定性，或能提升LLM輸出答案的可靠性。

研究團(tuán)隊采用一種新方法可以對生成式AI給出的答案“把關(guān)”。
圖片來源：《自然》網(wǎng)站

類似ChatGPT和Gemini等LLM，是能閱讀和生成自然人類語言的AI系統(tǒng)。不過，這類系統(tǒng)很容易產(chǎn)生所謂“幻覺”，即生成不準(zhǔn)確或沒有意義的內(nèi)容。檢測LLM出現(xiàn)的這種錯誤非常難，因為這些回答的呈現(xiàn)方式看起來很可信。

英國牛津大學(xué)研究團(tuán)隊此次嘗試量化一個LLM產(chǎn)生此類錯誤的程度，從而判斷生成的內(nèi)容有多忠于提供的源內(nèi)容。他們的方法能檢測“編造”——這是幻覺的一個子類別，特指不準(zhǔn)確和隨意的內(nèi)容，常出現(xiàn)在LLM缺乏某類知識的情況下。這種方法考慮了語言的微妙差別，以及回答如何能以不同的方式表達(dá)，從而擁有不同的含義。團(tuán)隊的研究表明，他們的方法能在LLM生成的個人簡介，以及關(guān)于瑣事、常識和生命科學(xué)這類話題的回答中識別出“編造”內(nèi)容。

在同時發(fā)表的新聞與觀點文章中，澳大利亞皇家墨爾本理工大學(xué)科學(xué)家指出，該方法由一個LLM完成，并通過第三個LLM進(jìn)行評價，等于在“以毒攻毒”。文章寫道，“用一個LLM評估一種基于LLM的方法似乎是在循環(huán)論證，而且可能有偏差。”不過，團(tuán)隊指出他們的方法有望幫助用戶理解在哪些情況下使用LLM的回答需要注意，也意味著可以提高LLM在更多應(yīng)用場景中的置信度。

近兩年，國內(nèi)外各種人工智能大模型如雨后春筍般涌現(xiàn)，它們陸續(xù)在聊天機(jī)器人、智能搜索、文本生成等豐富多樣的場景中落地應(yīng)用。以國內(nèi)為例，目前用戶可通過智能手機(jī)下載多款人工智能大模型應(yīng)用，并與之聊天互動。不過，在應(yīng)用過程中，人工智能大模型偶爾會“胡言亂語”的問題也受到關(guān)注。利用技術(shù)手段檢測它們是否在“胡言亂語”很有必要，從根本上避免人工智能大模型出現(xiàn)“幻覺”更是急需破解的難題。

責(zé)任編輯：常麗君

總編輯圈點|提高大語言模型可信度——新方法助生成式AI破除“幻覺”

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標(biāo)升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

總編輯圈點|提高大語言模型可信度——新方法助生成式AI破除“幻覺”

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標(biāo)升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

3.暫不升級，繼續(xù)瀏覽