使用CARBonAra進(jìn)行序列預(yù)測(cè)(示意圖)。圖片來源:瑞士洛桑聯(lián)邦理工學(xué)院
科技日?qǐng)?bào)記者 張佳欣
瑞士洛桑聯(lián)邦理工學(xué)院開發(fā)了一種名為CARBonAra的新型人工智能(AI)驅(qū)動(dòng)模型。該模型可以根據(jù)不同分子環(huán)境所施加限制的主鏈支架預(yù)測(cè)蛋白質(zhì)序列,有望在蛋白質(zhì)工程及包括醫(yī)學(xué)和生物技術(shù)在內(nèi)的多個(gè)領(lǐng)域帶來重大進(jìn)展。這一成果發(fā)表在最新一期《自然·通訊》雜志上。
CARBonAra是在一個(gè)包含約370000個(gè)亞基的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。它還從蛋白質(zhì)數(shù)據(jù)庫(kù)中額外選取了100000個(gè)亞基用于驗(yàn)證,70000個(gè)亞基用于測(cè)試。
CARBonAra建立在該團(tuán)隊(duì)開發(fā)的蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)換器框架的基礎(chǔ)上。它使用了幾何轉(zhuǎn)換器,是一種深度學(xué)習(xí)模型,可以處理點(diǎn)之間的空間關(guān)系(如原子坐標(biāo)),以學(xué)習(xí)和預(yù)測(cè)復(fù)雜的結(jié)構(gòu)。該模型突出特點(diǎn)是“上下文”感知能力,這在提高序列恢復(fù)率方面尤為明顯。
當(dāng)CARBonAra包含分子“上下文”,如蛋白質(zhì)與其他蛋白質(zhì)、核酸、脂質(zhì)或離子的界面時(shí),其恢復(fù)率顯著提高。
該模型不僅在合成基準(zhǔn)測(cè)試中表現(xiàn)出色,還經(jīng)過了實(shí)驗(yàn)驗(yàn)證,其靈活性和準(zhǔn)確性為蛋白質(zhì)工程開辟了新的途徑,增強(qiáng)了未來藥物發(fā)現(xiàn)的能力。CARBonAra在酶工程方面的成功也展示了其在工業(yè)應(yīng)用中的潛力。