文:陳乃群(於約翰霍普金斯大學取得電腦科學博士學位,人類在「端粒到端粒聯盟」的基因基因計畫協助產生T2T-CHM13和舊版人類基因體的對映關係,讓新舊版的體計體來分析資料可以更好地整合)
Take Home Message
- 1988年發起的人類基因體計畫,目標為完成人類基因體序列的畫最後塊解碼。該計畫於2003年宣告完成,拼圖當年研究團隊完成92%的們用人類基因體序列,也成為現今基因體研究的代表基石。
- 人類基因體有8%的全人區域在當時仍無法完全解碼,包含端粒、人類中節、基因基因核糖體陣列。體計體來端粒到端粒聯盟利用CHM13和新世代定序技術,畫最後塊於去(2021)年發表第一個完整人類基因體序列。拼圖
- 儘管完整基因體將帶來生物醫學全新的們用可能性,但此序列仍不能代表全人類。代表人類泛基因體聯盟正開發自動化組裝基因體的技術,希望能夠正確解析雙套的基因體,並應用於各族裔的參與者。
基因體是生物中所有遺傳訊息的組合,以人類來說,基因體中的遺傳密碼以染色體(chromosome)中的去氧核糖核酸(DNA)序列儲存,這些DNA 序列可以轉錄(transcribe)成核糖核酸(RNA),再進一步轉譯(translate)成蛋白質,決定生物的各式樣貌。
人類基因體計畫
了解基因體對於認識一個物種至關重要,因此美國國會在1988年發起人類基因體計畫(Human Genome Project, HGP),目標是完成人類基因體的解碼。
人類的基因體由23對染色體組成,總共有超過30億個DNA鹼基對(base pair)。但即使是當時最先進的DNA定序方法⸺獲得1980年諾貝爾化學獎殊榮的桑格定序法(Sanger sequencing),一次也只能解讀500~1000個鹼基對,因此科學家需要組裝(assemble)這些短的DNA序列,才能解碼人類基因體。
這是一件極度複雜的任務,像是組裝一幅300萬片的拼圖,而且沒有人知道拼圖的全貌。科學家分析不同DNA碎片之間的相同區域做為組裝的證據,挑戰著這項艱鉅的任務,例如一塊碎片尾端的序列與另一塊碎片的首端序列相同時,就可以將兩個碎片結合起來,變成更長的碎片。
在全世界超過2000名科學家的努力之下,人類基因體計畫於2003年宣告完成,研究團隊發布的人類基因體序列相當精確,獨立驗證下的錯誤率約為十萬分之一,而且涵蓋超過92%的人類基因體區域,這份人類基因體序列從此成為基因體研究的基石。
當不知道拼圖的全貌時,組裝拼圖非常困難;但如果已經知道拼圖完成後的樣子,我們便可以讓電腦去比對小片的拼圖與完成圖,從中找到小碎片的正確位置,再加上科學家設計的演算法,可以相當快速而且精準地完成這項任務。
雖然每個人的基因體序列存在些許差異,但大體上人與人之間的基因體相似程度高達99.9%,於是在完成第一個人類基因體之後,科學家便可以透過序列比對(sequence alignment)的處理方式分析基因檢體,大幅提高分析的效率。
利用序列比對,我們可以分析其他不屬於「人類基因體計畫」的人類基因檢體,了解個體、族群之間的差異,更深入地分析基因變異和各種生物性狀的關連,也可以更詳細地探索疾病機制。
最後一塊拼圖
在第一個人類基因體發布之後的20年間,基因體學有了飛躍性的進步,DNA定序的價格大幅降低,許多大型的資料庫如「千人基因體計畫」(1000 Genomes Project)、「英國人體生物資料庫」(UK Biobank)更搜集超過數十萬人的基因資料。這些進步帶來大量基礎科學的突破,也幫助科學家開發先進的藥物與療法,更開啟了新興的產業,如基因檢測(genetic testing)和基因編輯(gene editing)。
這些科學進展大多基於人類基因體計畫所組裝的基因體,然而這份基因體其實仍然有8%(大約兩億個鹼基對)的區域無法完全解碼,這些未完成的區域包含許多端粒(telomere)、中節(centromere)、核糖體陣列(ribosomal DNA array)的序列,由於這些區域具有大量的重複序列,利用桑格定序法難以分析。 這些區域就好像看不見的黑暗物質一樣,如今科學家們終於可以一探究竟,探索它們對人體是否具有重大的意義。
新世代的DNA定序方法在近年已逐漸成熟,例如Oxford Nanopore Technologies公司的技術可以解析長達百萬鹼基對的DNA序列,因此可具備良好的正確性;Pacific Biosciences公司的定序技術則達到更高的精準性,解析長達兩萬個鹼基對的序列。
這些新的技術提供良好的材料——更長的基因片段,讓科學家有機會解碼人類基因體中最困難的區域;就像是拼拼圖時,如果使用比較大塊的拼圖碎片,完成拼圖的難度就降低許多。
不過仍有另一個困難,由於健康人類的基因體是雙倍體(diploid),因此在組裝複雜區域的基因體時,兩套染色體(一套來自爸爸、一套來自媽媽)之間的細微差異,常常造成分析上的困難。
科學家發現一組代碼為CHM13(Complete Hydatidiform Mole 13)的特別細胞株可以協助解決這個難題,這個細胞株在精卵結合時發生異常,最終的細胞只包含精子DNA。美國匹茲堡大學(University of Pittsburgh)的科學家蘇爾蒂(Urvashi Surti)在1981 ~ 2000年間收集了一系列這類型的細胞株進行研究,發現他雖然無法發育成一個健康的個體,但從基因體學的角度來看CHM13和一般健康人的基因體沒有明顯差異。
萬事具備,只欠東風。在2018年,美國國家衛生院(National Institutes of Health, NIH)的生物資訊學家菲力佩(Adam Phillippy) 以及加州大學聖塔聖克魯茲分校(University of California, Santa Cruz)的遺傳學者米嘉(Karen Miga)成立「端粒到端粒聯盟」(T2T Consortium),他們利用CHM13細胞株和新世代的定序技術,挑戰組裝第一個真正完整的人體基因體。