無需海量數(shù)據(jù)輸入,AI通過兒童眼睛和耳朵學(xué)習(xí)語言|總編輯圈點(diǎn)

2024-02-01 17:20:52 來源: 科技日?qǐng)?bào) 點(diǎn)擊數(shù):



戴著頭戴式攝像頭的孩子捕捉到的視頻幀。圖片來源:紐約大學(xué)數(shù)據(jù)科學(xué)中心

科技日?qǐng)?bào)記者?張夢然

美國紐約大學(xué)研究人員開展了一項(xiàng)實(shí)驗(yàn),他們通過一個(gè)孩子的眼睛和耳朵來訓(xùn)練多模式人工智能(AI)系統(tǒng),使用的數(shù)據(jù)來自孩子6個(gè)月大到兩歲生日期間的頭戴攝像頭的視頻記錄。發(fā)表在最新一期《科學(xué)》雜志上的該項(xiàng)研究表明,該模型或神經(jīng)網(wǎng)絡(luò)實(shí)際上可利用孩子經(jīng)歷的有限片段,學(xué)習(xí)大量的單詞和概念。也就是說,視頻只捕捉了孩子大約1%的清醒時(shí)間,但這對(duì)于真正的語言學(xué)習(xí)來說已經(jīng)足夠了。

GPT-4等AI系統(tǒng)現(xiàn)在可學(xué)習(xí)和使用人類語言,但它們從海量的語言輸入中學(xué)習(xí),遠(yuǎn)比兒童在學(xué)習(xí)如何理解和表達(dá)語言時(shí)接受的要多。最好的AI系統(tǒng)訓(xùn)練的文本數(shù)量達(dá)到數(shù)萬億字,而兒童每年只能收到數(shù)百萬字的文本。

由于數(shù)據(jù)存在巨大差距,研究人員一直懷疑AI的最新進(jìn)展能否反映出很多有關(guān)人類學(xué)習(xí)和發(fā)展的信息。此次,研究團(tuán)隊(duì)從孩子6個(gè)月大開始,到25個(gè)月大結(jié)束,每周通過頭戴式攝像機(jī),捕獲其第一視角視頻并分析。他們共使用了超過60小時(shí)的視頻素材,包含大約25萬個(gè)單詞實(shí)例(即所傳達(dá)的單詞數(shù)量,其中許多是重復(fù)的)。這些單詞實(shí)例與孩子在說出這些單詞時(shí)所看到的視頻幀相關(guān)聯(lián),包括進(jìn)餐、讀書和玩耍等各種不同的活動(dòng)。

經(jīng)過訓(xùn)練后,團(tuán)隊(duì)對(duì)模型進(jìn)行了測試。他們向模型提供目標(biāo)單詞和四個(gè)不同的圖像,要求它選擇與目標(biāo)單詞匹配的答案。結(jié)果表明,該模型不但能夠?qū)W習(xí)孩子日常經(jīng)歷中存在的大量單詞和概念,還可以將它們概括為視覺實(shí)例,哪怕實(shí)例與模型訓(xùn)練中看到的完全不同。

總編輯圈點(diǎn)

讓AI用孩子學(xué)習(xí)語言的方式學(xué)習(xí),其實(shí)可以反過來幫助人們提升兒童教育。譬如說,怎樣才是兒童學(xué)習(xí)一門語言更合理的方式?孩子們需要被傳授多少知識(shí)?或者只是讓他們通過聯(lián)想去學(xué)習(xí)?其實(shí)專家們一直有所爭論。使用AI模型來研究兒童面臨的真正學(xué)習(xí)問題,是一項(xiàng)創(chuàng)舉,因?yàn)槿藗兛山璐私鉀Q許多經(jīng)典爭論。其辦法也很簡單——讓算法進(jìn)步與孩子自然體驗(yàn)相結(jié)合,就可能重塑人們對(duì)早期語言和概念掌握的理解。

責(zé)任編輯:左常睿

抱歉,您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式,這會(huì)影響您正常瀏覽本網(wǎng)頁

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí),繼續(xù)瀏覽

繼續(xù)瀏覽