“百模大戰(zhàn)”打響,我們究竟需要什么樣的大模型

2023-09-28 07:44:50 來(lái)源: 科技日?qǐng)?bào) 作者: 都芃?劉艷?劉莉?李坤

深瞳工作室出品

科技日?qǐng)?bào)記者 都芃 劉艷策劃 劉莉 李坤

大模型展現(xiàn)出的通用智能能力具有重要的現(xiàn)實(shí)意義和影響力,是人工智能發(fā)展中里程碑式的進(jìn)展。大模型帶來(lái)的智能革命,將媲美工業(yè)革命和電力革命,深刻改變?nèi)祟惿鐣?huì)的生產(chǎn)生活方式。大模型,或許正是開啟智能時(shí)代的那一臺(tái)“蒸汽機(jī)”。

要問(wèn)今年最熱的科技熱點(diǎn)是什么,許多人會(huì)脫口而出——大模型。從年初ChatGPT引發(fā)的大模型浪潮,到相關(guān)科技企業(yè)上線自家大模型產(chǎn)品,“百模大戰(zhàn)”不斷升級(jí),它所引發(fā)的人工智能“地震”還在持續(xù)。

進(jìn)入9月,國(guó)內(nèi)科技廠商在大模型領(lǐng)域動(dòng)作頻頻。9月初,此前一直處于內(nèi)測(cè)階段的多款大模型產(chǎn)品完成備案,正式上線,面向公眾開放。9月21日,在華為全聯(lián)接大會(huì)2023上,因在眾多領(lǐng)域展示了大模型發(fā)展的更多可能,盤古大模型成為當(dāng)之無(wú)愧的主角。

“百模大戰(zhàn)”也好,“群模起舞”也罷,技術(shù)進(jìn)步和創(chuàng)新噴涌的熱潮中,人們關(guān)注的焦點(diǎn)集中于,我們究竟需要什么樣的大模型?何種大模型是通向人工智能的最終答案?

基于大模型的詩(shī)歌生成。(視覺(jué)中國(guó)供圖)

智能時(shí)代的“蒸汽機(jī)”

現(xiàn)在到底有多少個(gè)大模型產(chǎn)品?似乎沒(méi)有人能給出準(zhǔn)確的答案。

賽迪顧問(wèn)發(fā)布的《2023大模型現(xiàn)狀調(diào)查報(bào)告》顯示,截至2023年7月底,國(guó)外累計(jì)發(fā)布大模型138個(gè),中國(guó)則累計(jì)有130個(gè)大模型問(wèn)世。

但這股浪潮的源頭很清楚,正是ChatGPT。

2022年末,由名不見(jiàn)經(jīng)傳的人工智能公司Open AI打造的大語(yǔ)言模型ChatGPT橫空出世,人們可以使用最日常的語(yǔ)言與其對(duì)話,讓它回答各種問(wèn)題、完成各類書面任務(wù),聊天、畫圖、敲代碼……人們第一次如此近距離地感受到人工智能帶來(lái)的震撼,也讓“大模型”這個(gè)此前只為少數(shù)人工智能領(lǐng)域從業(yè)者所知的專業(yè)概念,成為了被人們掛在嘴邊、反復(fù)提及的詞匯。

輸入內(nèi)容、進(jìn)行計(jì)算、產(chǎn)出結(jié)果,這是人工智能模型的本質(zhì),但大模型的與眾不同之處正在于其足夠“大”。

巨大的參數(shù)數(shù)量、龐大復(fù)雜的算法結(jié)構(gòu)、海量的訓(xùn)練數(shù)據(jù)以及強(qiáng)大的算力支撐,決定了大模型不同于普通的人工智能模型,其擁有強(qiáng)大的通用智能。

以ChatGPT為例,其早期3.0版本的參數(shù)數(shù)量已達(dá)到1750億個(gè),4.0版本的參數(shù)量更是指數(shù)級(jí)增加,達(dá)到1.8萬(wàn)億個(gè),訓(xùn)練數(shù)據(jù)的單位數(shù)量更是達(dá)到驚人的13萬(wàn)億。相比之下,早期如圍棋機(jī)器人AlphaGo等專用人工智能模型,其參數(shù)量往往僅為百萬(wàn)級(jí),與大模型相去甚遠(yuǎn)。

海量的參數(shù)、復(fù)雜的算法、強(qiáng)大的訓(xùn)練能力,讓大模型成為具備橫跨多領(lǐng)域?qū)W習(xí)能力的通用人工智能,實(shí)現(xiàn)了所謂的“智能涌現(xiàn)”,即擁有觸類旁通、舉一反三的學(xué)習(xí)能力。如果說(shuō)此前的人工智能模型還只是經(jīng)過(guò)訓(xùn)練后可以完成某些特殊任務(wù)的“馬戲團(tuán)猴子”,那大模型則可以說(shuō)已經(jīng)是一個(gè)接受完義務(wù)教育的“中學(xué)畢業(yè)生”。

在北京智源人工智能研究院院長(zhǎng)、北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍看來(lái),大模型展現(xiàn)出的通用智能能力具有重要的現(xiàn)實(shí)意義和影響力,是人工智能發(fā)展中里程碑式的進(jìn)展,放眼人類歷史、展望人類未來(lái),大模型帶來(lái)的智能革命,將媲美工業(yè)革命和電力革命,深刻改變?nèi)祟惿鐣?huì)的生產(chǎn)生活方式。大模型,或許正是開啟智能時(shí)代的那一臺(tái)“蒸汽機(jī)”。

華為盤古大模型語(yǔ)義理解系統(tǒng)。(視覺(jué)中國(guó)供圖)

哪條賽道通“羅馬”

ChatGPT引發(fā)的大模型熱潮讓許多科技巨頭坐不住了,紛紛將自家“壓箱底”的大模型成果公之于眾。

谷歌緊隨ChatGPT腳步,發(fā)布了基于自家大語(yǔ)言模型的聊天機(jī)器人“Bard”,互動(dòng)媒體與服務(wù)公司Meta也不甘落后,發(fā)布了同類大模型“Llama”。國(guó)內(nèi)同樣熱鬧非凡,3月份,百度率先發(fā)布研發(fā)十余年的知識(shí)增強(qiáng)大語(yǔ)言模型“文心一言”。隨后,360發(fā)布“360智腦”,阿里巴巴上線“通義千問(wèn)”,科大訊飛推出“訊飛星火”,騰訊推出“混元”,華為推出“盤古”……一眾科技公司不甘落后地推出了各自的大模型產(chǎn)品。

彼時(shí),面向公眾發(fā)布的大模型產(chǎn)品均為內(nèi)測(cè)使用,公眾需提出申請(qǐng),獲得內(nèi)測(cè)資格后才能進(jìn)行體驗(yàn)。7月10日,國(guó)家網(wǎng)信辦聯(lián)合國(guó)家發(fā)改委、教育部、科技部等七部門審議通過(guò)并發(fā)布《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱《辦法》),該《辦法》8月15日起正式施行?!掇k法》明確規(guī)定,提供具有輿論屬性或者社會(huì)動(dòng)員能力的生成式人工智能服務(wù)的,應(yīng)當(dāng)按照國(guó)家有關(guān)規(guī)定開展安全評(píng)估,并履行算法備案等手續(xù)。8月底,一批完成算法備案的大模型產(chǎn)品陸續(xù)上線,正式面向公眾開放。

或許是ChatGPT帶來(lái)的震撼過(guò)于強(qiáng)烈,以自然語(yǔ)言對(duì)話為主要功能體驗(yàn)的大語(yǔ)言模型產(chǎn)品成為許多科技廠商的首選,甚至一度成為大模型的代名詞。首批通過(guò)備案上線的大模型產(chǎn)品中有百度的“文心一言”、字節(jié)跳動(dòng)的“豆包”、智譜華章的“智譜清言”等。截至9月底,已有十余家大語(yǔ)言模型產(chǎn)品官宣上線,大部分均提供聊天對(duì)話、創(chuàng)意寫作、代碼生成等服務(wù)。

但在大語(yǔ)言模型之外,也有廠商選擇了另一條道路,不“戀戰(zhàn)”大語(yǔ)言模型,而是直面行業(yè)具體問(wèn)題。

在9月21日舉辦的華為全聯(lián)接大會(huì)2023上,華為常務(wù)董事、華為云CEO張平安表示,盤古大模型要幫助各行各業(yè)的客戶解最難的題。例如,在礦山領(lǐng)域,精煤產(chǎn)率是困擾業(yè)界多年的難題,山東能源集團(tuán)已將“盤古”礦山大模型全面應(yīng)用到采、掘、機(jī)、運(yùn)、通等9大業(yè)務(wù)系統(tǒng)、21個(gè)場(chǎng)景中。在“盤古”的助力下,濟(jì)寧二號(hào)煤礦每年能多產(chǎn)出8000噸精煤,精煤產(chǎn)率提升千分之二,增收約2000萬(wàn)元。

在正在舉辦的亞運(yùn)會(huì)上,也少不了大模型的身影。由浙江移動(dòng)打造的亞運(yùn)保障網(wǎng)絡(luò)運(yùn)維大模型在幕后為亞運(yùn)會(huì)保駕護(hù)航。它讓保障人員“無(wú)論在哪,無(wú)論何時(shí)”都能以“對(duì)話”方式獲取保障情況,全面提升了亞運(yùn)會(huì)保障的工作效率,降低了保障工作的技術(shù)門檻。

浙江移動(dòng)網(wǎng)管中心副總經(jīng)理方煒告訴科技日?qǐng)?bào)記者,無(wú)論是面向具體行業(yè)的垂直大模型,還是直面公眾的大語(yǔ)言模型,從底層技術(shù)來(lái)看,二者并不沖突?!斑@兩種選擇就像是此前的互聯(lián)網(wǎng)發(fā)展,既有改變?nèi)藗兩畹囊苿?dòng)互聯(lián)網(wǎng),也有改變社會(huì)、改變行業(yè)的產(chǎn)業(yè)互聯(lián)網(wǎng)。大模型也是基于通用的底層技術(shù),衍生出了不同用途。比如浙江移動(dòng)的網(wǎng)絡(luò)運(yùn)維大模型就是使用通用大模型通過(guò)微調(diào)和提示工程來(lái)滿足亞運(yùn)網(wǎng)絡(luò)保障的場(chǎng)景?!?/p>

垂直大模型和通用大模型,究竟哪條賽道能夠通向終極人工智能的“羅馬城”,答案或許是——條條大路通羅馬。

基于大模型的現(xiàn)代農(nóng)業(yè)模型。(視覺(jué)中國(guó)供圖)

“萬(wàn)模群舞”或在不遠(yuǎn)的將來(lái)

無(wú)論是何種類型的大模型,在“百模大戰(zhàn)”的背景下,其功能、用途、場(chǎng)景的重復(fù)都無(wú)法避免。但在業(yè)內(nèi)人士看來(lái),大模型的發(fā)展還遠(yuǎn)未觸及天花板,不僅“百模大戰(zhàn)”不是終點(diǎn),“萬(wàn)模群舞”或許就在不遠(yuǎn)的將來(lái)。

“大模型的研發(fā)是一個(gè)拼細(xì)節(jié)的過(guò)程。從技術(shù)路線上看,目前各家基本上都是基于Transformer架構(gòu)來(lái)做,方法很類似,但效果確實(shí)不一樣,決定成敗的是細(xì)節(jié)。”騰訊有關(guān)負(fù)責(zé)人接受采訪時(shí)說(shuō),由于資源投入程度、細(xì)節(jié)把握程度的不同,最后不同產(chǎn)品的差異會(huì)逐漸顯現(xiàn)?!皬膽?yīng)用領(lǐng)域來(lái)說(shuō),會(huì)迎來(lái)一個(gè)‘百花齊放’的場(chǎng)景,比如有的專注于自然語(yǔ)言處理,有的專注于醫(yī)療領(lǐng)域,有的專注于教育領(lǐng)域等。就目前而言,大模型的天花板還遠(yuǎn)遠(yuǎn)沒(méi)有觸到,技術(shù)體系和應(yīng)用場(chǎng)景都在不斷演進(jìn)?!彬v訊有關(guān)負(fù)責(zé)人說(shuō)。

無(wú)論是“百模大戰(zhàn)”還是“萬(wàn)模群舞”,要避免低水平的雷同復(fù)制,杜絕“重復(fù)造輪子”帶來(lái)的資源浪費(fèi),關(guān)鍵仍在于不斷豐富大模型的應(yīng)用生態(tài)。今年5月,國(guó)際期刊《自然》發(fā)表了一項(xiàng)百度在生物計(jì)算領(lǐng)域的突破性研究成果,其提出的mRNA序列優(yōu)化算法LinearDesign,對(duì)生物醫(yī)學(xué)領(lǐng)域創(chuàng)新具有重要價(jià)值,這也是中國(guó)互聯(lián)網(wǎng)科技企業(yè)首次以第一完成單位的身份在《自然》正刊發(fā)表成果。而在這背后,是百度在2022年5月便推出的“文心”生物計(jì)算大模型。借助大模型,人類能夠快速找到并設(shè)計(jì)出活性更好、性質(zhì)更優(yōu)的候選藥物分子,從而大幅提升新藥研發(fā)和疫苗設(shè)計(jì)效率,讓新藥研發(fā)從單點(diǎn)突破的“手工作坊”階段進(jìn)入到規(guī)模開發(fā)階段。目前,基于“文心”生物計(jì)算大模型和飛槳深度學(xué)習(xí)框架搭建的面向小分子、大分子和RNA的藥物設(shè)計(jì)平臺(tái)——飛槳螺旋槳PaddleHelix,已經(jīng)應(yīng)用于超過(guò)30家醫(yī)藥企業(yè)。

“無(wú)論是從技術(shù)層面還是產(chǎn)品層面,百花齊放、百家爭(zhēng)鳴對(duì)于當(dāng)下大模型發(fā)展都更加有利。算法研究階段可能五花八門,但到工程選型階段,可能會(huì)逐漸聚焦到一個(gè)或少數(shù)幾個(gè)類型。而到了具體產(chǎn)品選型層面,面向不同市場(chǎng)、不同行業(yè),產(chǎn)品形態(tài)可能又是多種多樣的?!鼻迦A大學(xué)計(jì)算機(jī)系教授唐杰認(rèn)為,無(wú)論哪種大模型都有各自的局限性,各種模型互相學(xué)習(xí)、競(jìng)爭(zhēng),在市場(chǎng)中大浪淘沙是必經(jīng)之路。

中國(guó)移動(dòng)“九天”AI酷玩體驗(yàn)站。(視覺(jué)中國(guó)供圖)

基于大模型的住院醫(yī)生站管理系統(tǒng)。(視覺(jué)中國(guó)供圖)

給大模型發(fā)展更多耐心

“百模大戰(zhàn)”雖然激發(fā)出了更多可能,但也帶來(lái)了不少負(fù)面影響。當(dāng)眾多廠商蜂擁而上大模型時(shí),參差不齊的產(chǎn)品讓人眼花繚亂,其中暗藏的法律、道德風(fēng)險(xiǎn)也應(yīng)引起人們的警惕。

例如,在面向公眾的大語(yǔ)言模型產(chǎn)品中,“一本正經(jīng)胡說(shuō)八道”現(xiàn)象已經(jīng)多次引發(fā)質(zhì)疑。“我們常說(shuō)大模型會(huì)產(chǎn)生‘幻覺(jué)’,就是因?yàn)榇竽P偷膬?nèi)容準(zhǔn)確性還不高、專業(yè)性能力不足,如果大模型產(chǎn)生的內(nèi)容直接公開在互聯(lián)網(wǎng),會(huì)使當(dāng)前良莠不齊的互聯(lián)網(wǎng)信息質(zhì)量更加低下?!狈綗樥J(rèn)為,大模型目前在內(nèi)容安全、版權(quán)、主體責(zé)任等方面還存在多種風(fēng)險(xiǎn)。

而當(dāng)深入到具體行業(yè)時(shí),不同行業(yè)的不同特點(diǎn)也對(duì)大模型在準(zhǔn)確度、安全性、專業(yè)性等方面提出更高要求。360創(chuàng)始人周鴻祎接受采訪時(shí)表示,雖然公開的大模型是通用的,甚至是萬(wàn)能的,但是當(dāng)深入到具體行業(yè)時(shí)仍然面臨著缺乏行業(yè)深度、不懂企業(yè)內(nèi)部知識(shí)、易導(dǎo)致企業(yè)內(nèi)部數(shù)據(jù)泄露、無(wú)法控制成本等問(wèn)題。方煒也同意這種說(shuō)法:“例如大模型應(yīng)用在通信網(wǎng)絡(luò)保障方面時(shí),就不允許有任何差錯(cuò),目前準(zhǔn)確性還有待提升?!?/p>

除了目前大模型自身仍然存在的缺陷,隨著競(jìng)爭(zhēng)的逐漸激烈,我國(guó)在相關(guān)數(shù)據(jù)、算力、算法等方面的困境也逐漸暴露。

例如,在訓(xùn)練數(shù)據(jù)方面,唐杰指出,目前我國(guó)的數(shù)據(jù)開放態(tài)勢(shì)并不強(qiáng),“大多數(shù)機(jī)構(gòu)還是想把數(shù)據(jù)握在自己手里”。但唐杰也坦承,即使機(jī)構(gòu)有數(shù)據(jù)開源的意愿,在目前環(huán)境下,仍然存在多重風(fēng)險(xiǎn)。他建議,我國(guó)關(guān)于大模型訓(xùn)練數(shù)據(jù)應(yīng)用、開源的相關(guān)法律法規(guī)還需要進(jìn)一步細(xì)化、健全,讓有開源意愿的機(jī)構(gòu)能夠放心地進(jìn)行數(shù)據(jù)開源,充分激發(fā)互聯(lián)網(wǎng)精神。

而在算力方面,“百模大戰(zhàn)”對(duì)算力的高需求也讓我國(guó)本就緊張的算力資源更加捉襟見(jiàn)肘。在“東數(shù)西算”基礎(chǔ)上建立起的算力互聯(lián)網(wǎng)或許有望成為解決這一問(wèn)題的答案。通過(guò)對(duì)不同地區(qū)的算力資源進(jìn)行調(diào)度,實(shí)現(xiàn)算力資源的均衡分配。但目前仍然需要在高帶寬、低延遲的算力網(wǎng)絡(luò)建設(shè)方面突破更多技術(shù)瓶頸。

如果說(shuō)數(shù)據(jù)和算力是大模型的硬件“基礎(chǔ)設(shè)施”,算法則體現(xiàn)著更多“人”的因素。小冰公司首席執(zhí)行官李笛認(rèn)為,就訓(xùn)練大模型而言,參數(shù)的數(shù)量并不是最重要的,工程化過(guò)程中的調(diào)優(yōu)才是真正的考驗(yàn)。“研發(fā)、訓(xùn)練一個(gè)大模型可能只需要一個(gè)月,但調(diào)優(yōu)可能需要一年的時(shí)間。這個(gè)過(guò)程格外需要謹(jǐn)慎、細(xì)致、耐心,有足夠的定力和專注力,也是一種‘工匠精神’的體現(xiàn)?!?/p>

耐心,是談及大模型發(fā)展時(shí)多位業(yè)內(nèi)專家反復(fù)提及的關(guān)鍵詞?!按竽P筒皇前褦?shù)據(jù)‘喂’進(jìn)去,算力一跑就有了。這其中有許多復(fù)雜細(xì)致的工作要做?!碧平鼙硎?,人工智能自20世紀(jì)50年代被提出至今,其發(fā)展已經(jīng)歷過(guò)多次起伏,任何技術(shù)的發(fā)展都不是一蹴而就的,要對(duì)其有充分耐心。

相關(guān)鏈接

記者手記丨不要等大模型“無(wú)所不能”時(shí)才入局

責(zé)任編輯: 陳可軒