他讓計算機成為“看圖說話”的高手

2022-10-09 15:18:00 來源: 科技日報 作者: 劉紅平?吳長鋒


繪圖:央美互動

劉紅平 科技日報記者 吳長鋒

人們在交流時,會借助手勢傳達一些信息。而對于聽力障礙者來說,手勢不是輔助交流手段,而幾乎是他們最主要的溝通方式。

合肥工業(yè)大學計算機與信息學院教授汪萌在多媒體智能領(lǐng)域所取得的科研成果,可以讓計算機精確理解手語視覺意圖,并能夠自動生成多語種語言。他的這些成果,為聽障人士運用現(xiàn)代信息化手段與外界互動交流,開辟了一個新通道。

“我們的目標,就是讓計算機對多媒體信息的理解日益接近人類水平?!蓖裘葘萍既請笥浾哒f。

從最簡單的圖片內(nèi)容識別起步

早在讀研期間,汪萌就將多媒體智能中的多媒體內(nèi)容分析與理解作為自己的研究領(lǐng)域和主攻方向。后來,汪萌24歲獲得博士學位、27歲受聘為特聘教授、33歲獲得國家自然科學基金杰出青年基金資助……外人看來順風順水的科研道路,他卻覺得自己走得異常艱辛。

“最初,我們從最簡單的圖片內(nèi)容識別入手,給計算機1000張照片,讓計算機識別出哪些照片是在室內(nèi)拍攝的、哪些又是在室外拍攝的。隨后,再嘗試識別哪些照片是在城市拍攝的、哪些是在鄉(xiāng)村拍攝的。再后來,才能讓計算機識別照片中的具體內(nèi)容,比如是人還是動物、是車還是船等?!蓖裘然貞浀馈?/p>

在多媒體智能起步階段,這些簡單的識別內(nèi)容,一度難倒了以處理數(shù)據(jù)見長的計算機。帶著這些問題,汪萌開展了一系列研究,終于將初階的計算機識別難題給攻克了,但完成這些才只是開始。

在此基礎(chǔ)上,汪萌開始研究描述生成,即給計算機一張圖片,讓計算機用一句話描述其中包含的信息,這被汪萌形象地稱為“教計算機看圖說話”。

經(jīng)過2年的集中攻關(guān),汪萌終于“教”會計算機用自主生成的、具有主謂賓結(jié)構(gòu)的語句對圖片進行描述,但是這種描述能力也只是勉強達到5歲孩子的語言表達水平,遠未達到可以被大規(guī)模推廣應用的程度,需要攻克的問題還有很多。

將研發(fā)技術(shù)在多領(lǐng)域進行應用并取得成果

“研究中的每一個進步,都來之不易。想要在高水平的智能化道路上走得更遠,我和團隊成員只能腳踏實地、逐個攻克難題?!蓖裘雀嬖V記者,隨著研究的深入,計算機內(nèi)容分析的智能化水平在不斷提升,它的理解能力也越來越強,描述的語言更加豐富、生動。

“我們逐步實現(xiàn)了人機問答和對話,讓計算機在‘看’完一部電影后,向我們描述其中一段情節(jié),進而讓計算機針對某個問題或一系列關(guān)聯(lián)性問題做出準確的回答?!蓖裘然貞浀馈?/p>

十余年的持續(xù)攻關(guān),汪萌帶領(lǐng)團隊成員圍繞可解釋的多媒體智能技術(shù)在視覺內(nèi)容情感分析、視覺非接觸式生理信號檢測、多模態(tài)抑郁癥診斷、情緒相關(guān)微動作檢測與識別等領(lǐng)域的應用進行了先期探索,并取得的一系列突破性的成果。

“在這一系列成果的支撐下,如今架起一個廣角鏡頭,計算機通過鏡頭‘看到’自動監(jiān)控畫面中的人與物,就能分析、推理其中相關(guān)物品、人物的關(guān)系,判斷其是否存在安全隱患,從而實現(xiàn)對某些特定場所的安全感知、預警和管控?!蓖裘日f。

填補電力施工現(xiàn)場安全管控系統(tǒng)領(lǐng)域的技術(shù)空白

汪萌告訴記者,他和團隊成員取得的原創(chuàng)性成果已經(jīng)“走”出了實驗室,為國家建設(shè)和社會發(fā)展貢獻力量。

“我和團隊成員為電力施工現(xiàn)場設(shè)計出了一整套智能感知、云邊協(xié)同、全過程可視化的電力工程現(xiàn)場安全解決方案和軟硬件系統(tǒng),有效地提升了電力施工現(xiàn)場的安全水平?!蓖裘缺硎?,他們的成果應用在全國超過120個地市的工程現(xiàn)場,實現(xiàn)了對電力工程現(xiàn)場的遠程實時監(jiān)控和智能識別分析,還可以對其進行綜合風險預判,進而降低了電力施工現(xiàn)場的安全風險。

汪萌及其團隊的這一研究成果,填補了我國電力施工現(xiàn)場安全管控系統(tǒng)領(lǐng)域的技術(shù)空白,建立了擁有自主知識產(chǎn)權(quán)的技術(shù)體系,為電力工程大規(guī)模建設(shè)提供了技術(shù)保障。

如今,汪萌和他的團隊成員正在探索將研究成果應用在無障礙引導、輔助教學、智能聊天機器人和無人駕駛等更多場景中,改善殘障人士的生活并推動新興產(chǎn)業(yè)的發(fā)展。

責任編輯: 許茜