生命“天書(shū)”有了全新章節(jié)——首個(gè)完整無(wú)間隙人類(lèi)基因組序列出爐

2022-05-10 09:16:36 來(lái)源: 科技日?qǐng)?bào) 作者: 張佳欣

深瞳工作室出品

科技日?qǐng)?bào)實(shí)習(xí)記者張佳欣策劃馮衛(wèi)東王俊鳴

國(guó)際科學(xué)團(tuán)隊(duì)端粒到端粒聯(lián)盟（T2T）宣告第一個(gè)完整的、無(wú)間隙的人類(lèi)基因組序列問(wèn)世，這本人類(lèi)生命“天書(shū)”終于完整了。其首次揭示了高度相同的節(jié)段重復(fù)基因組區(qū)域及其在人類(lèi)基因組中的變異，這是對(duì)標(biāo)準(zhǔn)人類(lèi)參考基因組，即2013年發(fā)布的參考基因組序列（GRCh38）的重大升級(jí)。

視覺(jué)中國(guó)供圖

人類(lèi)的基因組常常被比作生命的“天書(shū)”——A、T、G、C四種堿基構(gòu)成了DNA，卻配對(duì)出超過(guò)60億種可能，足見(jiàn)其紛繁復(fù)雜。

在由中、美、英、法、德、日6國(guó)科學(xué)家共同參與研究的人類(lèi)基因組序列草圖正式發(fā)布20多年后，國(guó)際科學(xué)團(tuán)隊(duì)端粒到端粒聯(lián)盟（T2T）宣告第一個(gè)完整的、無(wú)間隙的人類(lèi)基因組序列問(wèn)世，這本人類(lèi)生命“天書(shū)”終于完整了。它首次揭示了高度相同的節(jié)段重復(fù)基因組區(qū)域及其在人類(lèi)基因組中的變異，這是對(duì)標(biāo)準(zhǔn)人類(lèi)參考基因組，即2013年發(fā)布的參考基因組序列（GRCh38）的重大升級(jí)。

4月1日，《科學(xué)》雜志連發(fā)6篇論文報(bào)道了這一成果。

這一成果將從根本上改變我們治療多種疾病的方式。隨著新冠病毒新變種的頻繁出現(xiàn)，科學(xué)家們可以使用完整的基因組測(cè)序來(lái)尋找與該疾病相關(guān)的突變，他們還可以更詳細(xì)地利用其來(lái)研究人類(lèi)遺傳變異的進(jìn)化，或?qū)氐赘淖內(nèi)藗兝斫馊祟?lèi)進(jìn)化的方式。

8%的“空白區(qū)”不是“垃圾”

2001年2月12日，國(guó)際人類(lèi)基因組計(jì)劃首次公布人類(lèi)基因組圖譜及初步分析結(jié)果；2003年4月15日，人類(lèi)基因組序列草圖正式公布。然而，由于技術(shù)條件限制，當(dāng)初的人類(lèi)基因組圖譜留下了大約8%的空白間隙。這一很難被測(cè)序的部分，由高度重復(fù)的DNA序列組成，包含染色體末端的端粒和染色體中心節(jié)點(diǎn)的著絲粒。

著絲粒背后的異染色質(zhì)序列位于染色體的關(guān)鍵部位，在人類(lèi)基因組序列草圖中，它們都被標(biāo)記為N的長(zhǎng)序列，表示“未知的堿基”。13、14、15、21和22號(hào)染色體的短臂序列也同樣被忽略。

美國(guó)國(guó)立衛(wèi)生研究院下屬的國(guó)家人類(lèi)基因組研究所（NHGRI）所長(zhǎng)、醫(yī)學(xué)博士埃里克·格林稱(chēng)，缺少片段的基因組“就像缺少句子的段落”一樣不完整。

華盛頓大學(xué)霍華德·休斯醫(yī)學(xué)研究所研究員埃文·艾希勒說(shuō)，對(duì)DNA進(jìn)行測(cè)序就像解決拼圖游戲一樣。科學(xué)家們必須首先將DNA分解成更小的部分，然后使用測(cè)序儀以正確的順序?qū)⑵淦礈愒谝黄稹?/p>

現(xiàn)在，新的T2T基因組圖譜補(bǔ)足了拼圖盒圖片上8%的空白，并更正了此前拼圖中存在的數(shù)千個(gè)錯(cuò)誤。大多數(shù)新添加的DNA序列位于重復(fù)端粒和著絲粒附近。

新的無(wú)間隙版本被稱(chēng)為T(mén)2T—CHM13，由30.55億個(gè)堿基對(duì)和19969個(gè)蛋白質(zhì)編碼基因組成，增加了近2億個(gè)堿基對(duì)的新DNA序列，包括99個(gè)可能編碼蛋白質(zhì)的基因和其中近2000個(gè)需要進(jìn)一步研究的候選基因。這些候選基因大多數(shù)是失活的，但其中115個(gè)仍然可能表達(dá)。研究團(tuán)隊(duì)還在人類(lèi)基因組中發(fā)現(xiàn)了大約200萬(wàn)個(gè)額外的變異，其中622個(gè)出現(xiàn)在與醫(yī)學(xué)相關(guān)的基因中。此外，新序列還糾正了GRCh38中的數(shù)千個(gè)結(jié)構(gòu)錯(cuò)誤，消除了每個(gè)樣本中數(shù)以萬(wàn)計(jì)的假陽(yáng)性變異，包括269個(gè)與疾病相關(guān)的已知或疑似基因的變異。

根據(jù)艾希勒的說(shuō)法，事實(shí)證明，許多研究人員認(rèn)為是“垃圾或無(wú)關(guān)緊要”的那些重復(fù)序列實(shí)際上非常重要。

由于之前的GRCh38模型（稱(chēng)為參考基因組）是多個(gè)個(gè)體基因組的組合，基本上將一個(gè)人的基因組與另一個(gè)人的基因組“縫合在一起”，因此存在一些錯(cuò)誤和重疊。而新的、完整的版本消除了這些縫隙，更能代表一個(gè)人的實(shí)際基因組的樣子。

助力破解最后的“黑匣子”

由于重復(fù)區(qū)域的復(fù)雜性，剩下的8%的人類(lèi)基因組多年來(lái)一直困擾著科學(xué)家。一方面，它包含具有多次重復(fù)的DNA區(qū)域，這使得使用以前的測(cè)序方法以正確的順序?qū)NA串在一起具有挑戰(zhàn)性。

早期，被稱(chēng)為“短讀長(zhǎng)”的DNA測(cè)序技術(shù)一次只能讀取相對(duì)較短的序列，也就是提供數(shù)百個(gè)DNA堿基序列。這是20年前唯一可用的基因組圖譜技術(shù)。例如，假設(shè)基因組的一部分由連續(xù)重復(fù)9次的句子“只工作不玩耍，聰明孩子也變傻”組成。該技術(shù)只會(huì)顯示其中的一部分，例如“只工作”“聰明”“孩子也”等。研究人員將這些簡(jiǎn)短的部分拼湊在一起，組成了這句話(huà)，但他們無(wú)法知道它被重復(fù)了9次。因此，運(yùn)用該技術(shù)仍然會(huì)在組裝的基因組序列中留下部分空白。

對(duì)于10000塊拼圖，當(dāng)它們看起來(lái)相似時(shí)，很難正確排列小塊的區(qū)域，就像對(duì)重復(fù)DNA的小片段進(jìn)行測(cè)序一樣。但是對(duì)于500塊拼圖，正確排列大范圍區(qū)域，即較長(zhǎng)的DNA片段，要容易得多。因此，“長(zhǎng)讀長(zhǎng)”技術(shù)應(yīng)運(yùn)而生。技術(shù)的巨大進(jìn)步使得研究人員能夠?qū)δ切╇y以閱讀的重復(fù)序列進(jìn)行排序。

在過(guò)去的10年中，出現(xiàn)了兩種新的DNA測(cè)序技術(shù)——“長(zhǎng)讀長(zhǎng)”技術(shù)，可在不影響準(zhǔn)確性的情況下生成更長(zhǎng)的DNA序列讀數(shù)，甚至可一次閱讀整個(gè)“句子”或“段落”。

牛津納米孔（Nanopore）的DNA測(cè)序方法（超長(zhǎng)讀長(zhǎng)）一次可讀取多達(dá)100萬(wàn)個(gè)DNA字母，準(zhǔn)確度適中；而太平洋生物科學(xué)公司（PacBio HiFi）的DNA測(cè)序方法（高保真讀長(zhǎng)技術(shù)）可讀取約20000個(gè)字母，準(zhǔn)確度近乎完美。這兩種測(cè)序的結(jié)合使T2T研究人員能夠避開(kāi)區(qū)域的重復(fù)，并確保裝配的基因序列高度準(zhǔn)確。

還有一種工具是默芬（Merfin），研究人員用它來(lái)清理人類(lèi)基因組中一些最困難的序列。默芬使準(zhǔn)確測(cè)試序列成為可能，它可以感測(cè)可能不正確的代碼并自動(dòng)糾正錯(cuò)誤。因?yàn)樯涩F(xiàn)代序列的技術(shù)更加準(zhǔn)確，所以默芬僅用于最棘手的情況。例如，現(xiàn)有的技術(shù)很難評(píng)估像AAA這樣的完全相同的堿基對(duì)，而默芬糾正了這種序列錯(cuò)誤。

換句話(huà)說(shuō)，科學(xué)家們?cè)?jīng)以為，重復(fù)區(qū)域的拼圖有著幾乎一樣的顏色和形狀，比如看起來(lái)都像藍(lán)天。但現(xiàn)在，更先進(jìn)的測(cè)序技術(shù)使科學(xué)家們發(fā)現(xiàn)，這些重復(fù)的碎片圖案實(shí)際不僅僅是藍(lán)天，還有草地和太陽(yáng)。

破解生命“天書(shū)”最后“黑匣子”的第二個(gè)挑戰(zhàn)是尋找僅包含一個(gè)基因組的細(xì)胞。標(biāo)準(zhǔn)的人類(lèi)細(xì)胞包含兩組DNA，一組是母系DNA，另一組是父系DNA，但T2T團(tuán)隊(duì)使用的是一組被稱(chēng)為完全性葡萄胎的細(xì)胞的DNA，其中僅包含父系DNA的副本。完全性葡萄胎是一種罕見(jiàn)的妊娠并發(fā)癥，由來(lái)源于胎盤(pán)的細(xì)胞異常生長(zhǎng)引起。

這種方法簡(jiǎn)化了基因組，因此科學(xué)家只需對(duì)一組DNA進(jìn)行測(cè)序，而不是兩組DNA。

基因組學(xué)一個(gè)關(guān)鍵里程碑

新序列補(bǔ)齊了人類(lèi)基因組最后一塊拼圖，標(biāo)志著基因組學(xué)領(lǐng)域的一個(gè)關(guān)鍵里程碑。

新序列揭示了關(guān)于著絲粒周?chē)鷧^(qū)域的前所未見(jiàn)的細(xì)節(jié)。這將大大增加人們對(duì)染色體的了解，尤其是著絲粒及其作用。因?yàn)樵搮^(qū)域?qū)τ诹私馊祟?lèi)進(jìn)化和遺傳多樣性以及對(duì)許多疾病的抵抗力或易感性至關(guān)重要。

同時(shí)，新序列揭示了以前未被發(fā)現(xiàn)的節(jié)段重復(fù)，即在基因組中重復(fù)的長(zhǎng)DNA片段。在人類(lèi)基因組中的20000個(gè)基因中，大約950個(gè)起源于節(jié)段重復(fù)。這些人類(lèi)特有的節(jié)段重復(fù)是新基因的儲(chǔ)存庫(kù)，這些基因會(huì)在發(fā)育中的大腦中驅(qū)動(dòng)更多神經(jīng)元的形成，并增強(qiáng)額葉皮質(zhì)突觸的連接性——可能與人類(lèi)特有的高級(jí)思維、推理、邏輯和語(yǔ)言功能有關(guān)。

而更準(zhǔn)確的5條染色體臂圖譜的呈現(xiàn)，或幫助科學(xué)家開(kāi)辟新的研究方向，有助于回答有關(guān)染色體如何正確分離和分裂的基本生物學(xué)問(wèn)題。

“生成真正完整的人類(lèi)基因組序列代表了一項(xiàng)令人難以置信的科學(xué)成就，提供了人類(lèi)基因藍(lán)圖的第一個(gè)全面視圖?！备窳终f(shuō)，“這些基礎(chǔ)信息將推進(jìn)許多正在進(jìn)行的努力，幫助我們了解人類(lèi)基因組的細(xì)節(jié)，這反過(guò)來(lái)又將為人類(lèi)疾病的基因研究提供支持。”

除了完成組裝拼圖的醫(yī)學(xué)研究意義之外，它還有助于回答：我們的基因組中包含什么使我們成為了人類(lèi)？與其他猿類(lèi)相比，原始基因組中的一些空白基因現(xiàn)在被認(rèn)為對(duì)于幫助人類(lèi)制造更大的大腦至關(guān)重要。著絲粒的變異性也可能為人類(lèi)祖先如何進(jìn)化提供新證據(jù)。

現(xiàn)在，科學(xué)家能夠隨時(shí)間變化跟蹤這些新的基因組區(qū)域，從而能夠?qū)σ淮忠淮⒉煌鹪吹娜嘶蛭锓N進(jìn)行更嚴(yán)格的比較。

例如，艾希勒實(shí)驗(yàn)室的研究生哈維·吉塔特對(duì)與人類(lèi)前額葉皮質(zhì)擴(kuò)張相關(guān)的基因家族TBC1D3的分析顯示，在靈長(zhǎng)類(lèi)動(dòng)物進(jìn)化的不同點(diǎn)上發(fā)生了反復(fù)和獨(dú)立的擴(kuò)張。最近一次發(fā)生在約200萬(wàn)到260萬(wàn)年前，大概是人屬出現(xiàn)的時(shí)候。令人驚訝的是，人類(lèi)的TBC1D3基因家族在一部分樣本中顯示出顯著的大規(guī)模結(jié)構(gòu)變異。

研究人員在其論文中解釋說(shuō)，不同的人有著截然不同的TBC1D3基因家族的互補(bǔ)和排列方式。對(duì)于一個(gè)被認(rèn)為對(duì)大腦功能如此重要的基因來(lái)說(shuō)，這是令人意想不到的?？茖W(xué)家們還發(fā)現(xiàn)了LPA基因復(fù)雜結(jié)構(gòu)的多樣性，這種脂蛋白基因部分的變異性是血液中血脂水平異常導(dǎo)致心血管疾病的最重要的遺傳風(fēng)險(xiǎn)因素。

研究人員還研究了SMN基因（一種運(yùn)動(dòng)神經(jīng)元基因），其突變與某些神經(jīng)肌肉疾病有關(guān)。對(duì)脊髓性肌萎縮區(qū)域（5號(hào)染色體上最難完成測(cè)序的區(qū)域之一）進(jìn)行更好的序列識(shí)別，從而有助于確定疾病風(fēng)險(xiǎn)并進(jìn)一步治療，因?yàn)橹貜?fù)基因SMN2是最有效基因療法之一的靶點(diǎn)。

此外，許多疾病與著絲粒中的結(jié)構(gòu)重復(fù)有關(guān)，因此，新序列有助于科學(xué)家研究與基因相關(guān)的疾病。

眾所周知，著絲粒在細(xì)胞繁殖時(shí)在DNA復(fù)制中發(fā)揮作用，如果顯著改變它們?cè)谌旧w中的位置，就可以產(chǎn)生全新的物種。當(dāng)某些異染色質(zhì)著絲?；蜻^(guò)度表達(dá)時(shí)，癌細(xì)胞會(huì)瘋狂分裂；細(xì)胞分裂和細(xì)胞之間遺傳物質(zhì)分配出錯(cuò)也可能導(dǎo)致產(chǎn)前發(fā)育的異常，如唐氏綜合癥或羅伯遜易位，而對(duì)著絲?；蚪M的全面了解可能為治療這些疾病打開(kāi)新大門(mén)。

基于這些和其他發(fā)現(xiàn)，科學(xué)家們指出，新的參考基因組“揭示了對(duì)神經(jīng)發(fā)育和人類(lèi)疾病很重要的基因中人類(lèi)遺傳變異的前所未有的水平”。

這不是結(jié)束而是新的開(kāi)始

此次，T2T團(tuán)隊(duì)使用的葡萄胎細(xì)胞只保留了XX染色體——一組重復(fù)的染色體，缺失了Y染色體。而完成單倍體基因組測(cè)序并不是“人類(lèi)基因組計(jì)劃”的最終目標(biāo)和結(jié)果，更是一個(gè)新的開(kāi)始。

艾希勒稱(chēng)：“我們已經(jīng)完成了一個(gè)基因組。在接下來(lái)的幾年里，將會(huì)有數(shù)百甚至數(shù)千個(gè)基因組。我認(rèn)為我們對(duì)人類(lèi)彼此不同的看法將發(fā)生轉(zhuǎn)變，更復(fù)雜的遺傳變異不僅對(duì)了解什么使我們成為人類(lèi)很重要，而且對(duì)了解什么使我們與眾不同也很重要?！?/p>

下一階段，科學(xué)家們將對(duì)多個(gè)不同個(gè)體的基因組進(jìn)行測(cè)序，以充分掌握人類(lèi)的多樣性、疾病以及人類(lèi)與其他靈長(zhǎng)類(lèi)動(dòng)物的關(guān)系。

好消息是，研究人員也即將發(fā)布來(lái)自不同來(lái)源細(xì)胞的Y染色體的完整序列。對(duì)這一新Y染色體序列的分析將出現(xiàn)在未來(lái)的出版物中。

此外，T2T聯(lián)盟還有一個(gè)新目標(biāo)——從不同種族或血統(tǒng)的人中提取350個(gè)基因組（目前已破譯了70個(gè)基因組）。NHGRI基因信息學(xué)部門(mén)負(fù)責(zé)人亞當(dāng)·菲利普博士說(shuō)，該項(xiàng)目將總共花費(fèi)數(shù)百萬(wàn)美元或更多。但與2003年人類(lèi)基因組計(jì)劃完成最終測(cè)序所花費(fèi)的近4.5億美元相比，這只是一個(gè)零頭。隨著新技術(shù)的出現(xiàn)，測(cè)序只會(huì)變得越來(lái)越便宜。

就目前而言，對(duì)每個(gè)人來(lái)說(shuō)，測(cè)序自己的基因組仍然過(guò)于昂貴和耗時(shí)，但使用全新基因組序列來(lái)確定某些基因差異是否與特定癌癥有關(guān)的研究已經(jīng)在路上。

菲利普博士表示，在未來(lái)幾年內(nèi)，對(duì)一個(gè)人的整個(gè)基因組進(jìn)行測(cè)序應(yīng)該會(huì)變得更便宜、更簡(jiǎn)單。

“未來(lái)，當(dāng)某人對(duì)其基因組進(jìn)行測(cè)序時(shí)，我們將能夠識(shí)別他們DNA中的所有變異，并利用這些信息更好地指導(dǎo)他們的醫(yī)療保健。”菲利普說(shuō)，“真正完成人類(lèi)基因組序列就像戴上一副新眼鏡，現(xiàn)在我們可以清楚地看到一切，而我們離理解這一切意味著什么又近了一步?！?/p>

相關(guān)閱讀：

基因測(cè)序計(jì)劃知多少

責(zé)任編輯：李夢(mèng)一

生命“天書(shū)”有了全新章節(jié)——首個(gè)完整無(wú)間隙人類(lèi)基因組序列出爐

友情鏈接