谷歌Project Astra亮相發(fā)布會(huì)。 圖片來(lái)源:美國(guó)Gizmodo網(wǎng)站
科技日?qǐng)?bào)記者?張佳欣
OpenAI與谷歌的又一次技術(shù)交鋒剛剛落下帷幕。
北京時(shí)間5月14日凌晨,OpenAI發(fā)布了新一代多模態(tài)人工智能(AI)大模型GPT-4o,其先進(jìn)的AI語(yǔ)音交互技術(shù)迅速吸引了人們的目光。
一天之后,谷歌在北京時(shí)間15日凌晨的I/O 2024開(kāi)發(fā)者大會(huì)上,攜新版Gemini AI大模型等尖端產(chǎn)品重裝上陣,正面對(duì)決OpenAI,燃起新一輪AI領(lǐng)域爭(zhēng)霸的戰(zhàn)火。
GPT-4o語(yǔ)音對(duì)話絲滑如真人
一個(gè)擁有流暢、迷人嗓音的逼真AI,可以讓人類(lèi)用戶(hù)著迷并留下深刻的印象。調(diào)情、講笑話、滿(mǎn)足人類(lèi)的欲望,并最終留住他們的心……這是2013年美國(guó)上映的電影《她》中的情節(jié)。在這部影片中,一位叫薩曼莎的虛擬姑娘讓孤獨(dú)內(nèi)向的男主深陷其中。
事實(shí)上,這也是OpenAI展示的新模型GPT-4o所能讓人聯(lián)想到的情節(jié)。
據(jù)OpenAI介紹,GPT-4o是一個(gè)“原生多模態(tài)”模型。它命名中的o來(lái)源于“omni”一詞,意為“全能的”,有包羅萬(wàn)象之意。它可以接受文本、音頻和圖像任意組合的輸入,并生成這些格式的相應(yīng)輸出。新模型使ChatGPT能夠處理50種不同的語(yǔ)言,速度和質(zhì)量同時(shí)得到提高。它可以在短短232毫秒內(nèi)處理音頻輸入,平均耗時(shí)320毫秒,與人類(lèi)對(duì)話中的反應(yīng)時(shí)間相當(dāng)。
GPT-4o允許ChatGPT以更加逼真的方式與用戶(hù)交流。它不僅能檢測(cè)用戶(hù)聲音中的情緒,分析面部表情,還能根據(jù)用戶(hù)需求改變語(yǔ)調(diào)和節(jié)奏。如果想聽(tīng)睡前故事,它可以用耳語(yǔ)說(shuō)話。如果需要來(lái)一段帶“酸味兒”的對(duì)話,它就能以輕松、諷刺的語(yǔ)氣與人交談。它甚至還可以按要求唱歌,一會(huì)兒是高亢的女高音,一會(huì)兒又能變成迷人的女低音。
有趣的是,就在GPT-4o官宣發(fā)布后,一名OpenAI的員工發(fā)布了一條意味深長(zhǎng)的信息:“你們都會(huì)愛(ài)上它的?!?/p>
Astra讓AI與人們生活無(wú)縫融合
OpenAI發(fā)布了GPT-4o后,壓力就給到了谷歌。谷歌在發(fā)布會(huì)上,放出大招向OpenAI“開(kāi)戰(zhàn)”,勢(shì)必要扳回一局。
谷歌在整個(gè)大會(huì)中共提到“AI”121次,并推出了從新的搜索和聊天功能到面向云客戶(hù)的AI硬件等十余種新品和升級(jí)產(chǎn)品。其中包括由升級(jí)后Gemini模型驅(qū)動(dòng)的AI助手項(xiàng)目Astra、對(duì)標(biāo)Sora的文生視頻模型Veo,以及第六代Tensor處理器單元(TPU)Trillium芯片。
Astra是一次旨在創(chuàng)建“通用人工智能代理”的新嘗試。與GPT-4o一樣,Astra具有以各種形式或多模式方式快速響應(yīng)用戶(hù)的卓越能力,這使得它非常適合成為AI助手。
谷歌表示,通過(guò)對(duì)視頻幀和語(yǔ)音輸入進(jìn)行連續(xù)處理和編碼,Astra可以創(chuàng)建事件時(shí)間軸并緩存信息,以便快速調(diào)用。這使AI能看、能聽(tīng)、能說(shuō),甚至能回憶。在一段引人入勝的視頻中,這款模型通過(guò)智能手機(jī)的攝像頭識(shí)別出現(xiàn)實(shí)世界中的物體,能直接讀取代碼,甚至能幫用戶(hù)回憶起他的眼鏡落在了哪里,還能幾乎零延遲與人實(shí)時(shí)對(duì)話。
生成式AI革命遠(yuǎn)未成功
自ChatGPT宣告問(wèn)世,谷歌和OpenAI的競(jìng)爭(zhēng)就不斷升級(jí)。現(xiàn)在,兩大科技巨頭更是在兩天時(shí)間里紛紛亮出引人矚目的產(chǎn)品。
然而,生成式AI的飛速發(fā)展也伴隨著眾多質(zhì)疑的聲音。人們對(duì)于這些科技公司所塑造的“AI未來(lái)”仍持謹(jǐn)慎態(tài)度。
《新科學(xué)家》雜志網(wǎng)站稱(chēng),人們應(yīng)該認(rèn)識(shí)到,生成式AI的成功還遠(yuǎn)未確定。這個(gè)領(lǐng)域還很新,公司之間競(jìng)爭(zhēng)的目的并不是市場(chǎng)份額或客戶(hù)忠誠(chéng)度,而僅僅是為了擁有最新產(chǎn)品。新的GPT-4o盡管更有“人味兒”,但AI胡編亂造的行為未必能得到限制。
根據(jù)美國(guó)皮尤研究中心的調(diào)查,盡管ChatGPT在過(guò)去幾年聲勢(shì)浩大,但只有23%的美國(guó)成年人使用過(guò)它。英國(guó)牛津大學(xué)卡麗莎·維利茲副教授稱(chēng):“這項(xiàng)技術(shù)到底有多大影響,目前還很不明確。大多數(shù)人尚未體驗(yàn)過(guò)生成式AI工具,有理由認(rèn)為,這項(xiàng)技術(shù)最終可能不如一些人想象的那樣具有革命性。”