目前一代測序儀廠家主要有Illumina 、羅氏、ABI等三家。Illumina公司于2007年花費6億美金的巨資收購了Solexa, 新一代dna測序儀Genome Analyzer早由Solexa公司研發(fā),利用其核心技術“DNA簇”和“可逆性末端終結(reversible terminator)”,實現(xiàn)自動化樣本制備及基因組數(shù)百萬個堿基大規(guī)模平行測序。。Genome Analyzer作為新一代測序技術平臺,具有高性,高通量,高靈敏度,和低運行成本等突出優(yōu)勢,可以同時完成傳統(tǒng)基因組學研究(測序和注釋)以及功能基因組學 (基因表達及調控,基因功能,蛋白/核酸相互作用)研究。
Genome Analyzer自以來,已經為千人基因組計劃立下了赫赫戰(zhàn)功。今年早期,荷蘭科學家利用它繪出女性的基因組圖譜。而就在前兩周,《Nature》雜志上一連出現(xiàn)三個人類基因組圖譜:炎黃一號-*個亞洲人圖譜;*個癌癥病人圖譜;*個非洲人圖譜。它們全是依賴Genome Analyzer完成的。嘩,一下就來仨!這和*個人類基因組圖譜的13年形成了多么鮮明的對照。
根據去年底的數(shù)據,Genome Analyzer已售出約200臺,估計是*廣的。前不久,華大基因再添置了12臺,準備放在香港和深圳的實驗室,至此華大基因已經有29臺Genome Analyzer。而的麻省理工學院和哈佛大學Broad研究院擁有47臺Illumina測序儀。眾多實驗室之所以選擇Illumina,看中的無疑是Genome Analyzer的高性價比。
上個月,Illumina將Genome Analyzer II升級到Genome Analyzer IIx,距年底實現(xiàn)單次運行獲得95 GB數(shù)據的宏偉目標又近了一步。Genome Analyzer IIx有兩個核心特征:其一是更大的試劑冷卻器,支持超過100個測序循環(huán),進一步提升了系統(tǒng)的易用性和自動化;其二是的流動池支架,讓每輪運行所得的高質量數(shù)據增加20%。依靠系統(tǒng)軟件和試劑的改進,Genome Analyzer IIx現(xiàn)在能夠支持100 bp以上的配對末端讀長,并在每次運行中產生超過20 GB的高質量數(shù)據。
Genome Analyzer技術的基本原理:
1. 文庫制備
將基因組DNA打成幾百個堿基(或更短)的小片段,在片段的兩個末端加上接頭(adapter)。
2. 產生DNA簇
利用的芯片,其表面連接有一層單鏈引物,DNA片段變成單鏈后通過與芯片表面的引物堿基互補被一端“固定”在芯片上。另外一端(5’或3’)隨機和附近的另外一個引物互補,也被“固定”住,形成“橋 (bridge) “。反復30輪擴增,每個單分子得到了1000倍擴增,成為單克隆DNA簇。DNA簇產生之后,擴增子被線性化,測序引物隨后雜交在目標區(qū)域一側的通用序列上。
3. 測序
Genome Analyzer系統(tǒng)應用了邊合成邊測序(Sequencing By Synthesis)的原理。加入改造過的DNA聚合酶和帶有4種熒光標記的dNTP。 這些核苷酸是“可逆終止子”,因為3’羥基末端帶有可化學切割的部分,它只容許每個循環(huán)摻入單個堿基。此時,用激光掃描反應板表面,讀取每條模板序列*輪反應所聚合上去的核苷酸種類。之后,將這些基團化學切割,恢復3'端粘性,繼續(xù)聚合第二個核苷酸。如此繼續(xù)下去,直到每條模板序列都被聚合為雙鏈。這樣,統(tǒng)計每輪收集到的熒光信號結果,就可以得知每個模板DNA片段的序列。目前的配對末端讀長可達到2×50 bp,更長的讀長也能實現(xiàn),但錯誤率會增高。讀長會受到多個引起信號衰減的因素所影響,如熒光標記的不切割。
4. 數(shù)據分析
自動讀取堿基,數(shù)據被轉移到自動分析通道進行二次分析。
Genome Analyzer系統(tǒng)之所以如此,關鍵在于其技術上的優(yōu)勢。
1. 可擴展的超高通量
Genome Analyzer系統(tǒng)目前每次運行后可獲得超過20 GB的高品質過濾數(shù)據。這個技術的可擴展性了更高的數(shù)據密度和輸出,能用更少的經費完成更復雜的項目。到今年底,通量還有望上升到95 GB,相當于人類基因組的30倍覆蓋度。
2. 需要樣品量少
Genome Analyzer系統(tǒng)需要的樣品量低至100ng,能應用在很多樣品有限的實驗(比如免疫沉淀、顯微切割等)中。這也是很多研究人員所考慮的因素。
3. 簡單、快速、自動化
Genome Analyzer系統(tǒng)提供了簡單和簡潔的工作流程。即使是小的實驗室也能像大型基因組中心一樣進行大規(guī)模的實驗。制備樣品文庫可以在幾小時內完成,一個星期內就能得到高度的數(shù)據。Cluster Station可以說是Genome Analyzer的核心。由獨立軟件控制的自動生成DNA簇的過程可以在5小時之內(30分鐘手工操作)完成。這個自動化的流程不需要進行Emulsion PCR,減少了手工操作誤差和污染可能性,也不需要機器人操作或潔凈室??焖俚膶嶒灹鞒淌?/span>Genome Analyzer的能力增至大,而自動化步移降低了項目的時間和費用。
4. 新穎的測序化學技術
Genome Analyzer通過合成測序來支持大規(guī)模并行測序。利用新穎的可逆熒光標記終止子,可以在DNA鏈延伸的過程中檢測單個堿基摻入。由于四個可逆終止子dNTP在每個測序循環(huán)都存在,自然的競爭減少了摻入的誤差。
5. 單個或配對末端支持
Genome Analyzer系統(tǒng)支持單個片段或配對末端文庫。文庫構建過程簡單,減少了樣品分離和制備的時間。制備基因組DNA的單個片段或配對末端文庫需要6個小時,只有3個小時需要手工操作。2×50個堿基或更長的讀長增加了比對基因組的能力,并拓展了在其他方面的應用。
然而,精明的用戶更看重的是性價比,這也是他們選擇Illumina的重要原因。Illumina的售價約為45萬美元,低于454 GS FLX的50萬和SOLiD系統(tǒng)的59萬(以上皆為美國的售價)。此外,運行成本也是一個關鍵因素。美國鳳凰城翻譯基因組學研究院(TGen)的主管David Duggan曾表示,當年購買新一代測序儀時,每次運行的費用就成為他下決定的主要因素。他終選擇了Illumina Genome Analyzer,因為每輪的運行費用為3000-4000美元(2007年的數(shù)據),較為合理,而其他測序儀可能更高。當然,他也綜合考慮了通量、運行時間和樣品量。
弗吉尼亞聯(lián)邦大學的高原(音譯)博士認為:“Genome Analyzer的操作費用、易用性和可擴展性讓我實現(xiàn)了大規(guī)?;蚪M實驗?,F(xiàn)在,我的小型實驗室正在進行過去只能在大型基因組中心才能完成的實驗。低樣品需求、簡單的流程、高質量的數(shù)據以及應用靈活性讓Illumina Genome Analyzer從其他高通量測序技術中脫穎而出。”
羅氏454 測序儀
454公司可謂新一代測序技術的奠基人。2005年底,454公司推出了的基于焦磷酸測序法的超高通量基因組測序系統(tǒng)——Genome Sequencer 20 System,被《Nature》雜志以里程碑事件報道,開創(chuàng)了邊合成邊測序(sequencing-by-synthesis)的先河。之后,454公司被羅氏診斷公司以1.55億美元收購。一年后,他們又推出了性能更優(yōu)的第二代基因組測序系統(tǒng)—— Genome Sequencer FLX System (GS FLX)。去年10月,的GS FLX Titanium系列試劑和軟件的補充,讓GS FLX的通量一下子提高了5倍,性、讀長也進一步提升。
想當年,GS 20的出現(xiàn),揭開了測序歷嶄新的一頁。Jonathan Rothberg博士就是大規(guī)模并行測序的,同時也是454的創(chuàng)始人。上世紀90年代,很多學者也都想到了大規(guī)模并行測序,他們試圖將Sanger測序移到芯片上,但都以失敗告終,因為這項技術沒有可擴展性。1999年,Rothberg的兒子出世,他放了兩個星期的陪產假。小家伙出生后被送入嬰兒特護病房,Rothberg非常擔心,甚至想獲取兒子的基因組信息。這段擔驚受怕的經歷給了他靈感,他突然意識到焦磷酸測序(pyrosequencing)不僅簡單,而且具有可擴展性。兩個星期之后,Rothberg就開始設計芯片和流動室,讓測序在更小的反應室中進行,并同時進行幾百萬個反應。
硬件的設計和制造也只是成功的一半,在樣品制備上還有同樣漫長的路要走。Rothberg摒棄了傳統(tǒng)的細菌克隆與挑選,將DNA打斷成隨機片段,并尋找一種方法來克隆每個片段。受到其他學者乳液實驗的啟發(fā),他也想將DNA放入油包水的乳液中,這樣就省去了反應管。一個好漢三個幫。在Joel Bader等人的幫助下,Rothberg驗證了這些想法的可行性,并利用了炸藥中的表面活性劑來維持乳液的熱穩(wěn)定性。就這樣,乳液PCR終于誕生了。
之后,454生命科學公司用新一代測序儀對DNA雙螺旋結構的James Watson進行了基因組測序。*份個人基因組圖譜的繪制只用了兩年時間,花費不到100萬美元。雖然現(xiàn)在看來這并不算什么,但就當時而言,它相對于人類基因組計劃已是質的飛躍。
GS FLX系統(tǒng)的工作流程
GS FLX系統(tǒng)的流程概括起來,就是“一個片段 = 一個磁珠 = 一條讀長(One fragment = One bead = One read)”。
1)樣品輸入并片段化:GS FLX系統(tǒng)支持各種不同來源的樣品,包括基因組DNA、PCR產物、BAC、cDNA、小分子RNA等等。大的樣品例如基因組DNA或者BAC等被打斷成300-800 bp的片段;對于小分子的非編碼RNA或者PCR擴增產物,這一步則不需要。短的PCR產物則可以直接跳到步驟3)。
2)文庫制備:借助一系列標準的分子生物學技術,將A和B接頭(3’和5’端具有特異性)連接到DNA片段上。接頭也將用于后續(xù)的純化,擴增和測序步驟。具有A、B接頭的單鏈DNA片段組成了樣品文庫。
3)一個DNA片段=一個磁珠:單鏈DNA文庫被固定在特別設計的DNA捕獲磁珠上。每一個磁珠攜帶了一個*的單鏈DNA片段。磁珠結合的文庫被擴增試劑乳化,形成油包水的混合物,這樣就形成了只包含一個磁珠和一個*片段的微反應器。
4)乳液PCR擴增:每個*的片段在自己的微反應器里進行獨立的擴增,而沒有其他的競爭性或者污染性序列的影響。整個片段文庫的擴增平行進行。對于每一個片段而言,擴增后產生了幾百萬個相同的拷貝。隨后,乳液混合物被打破,擴增的片段仍然結合在磁珠上。
5)一個磁珠=一條讀長:攜帶DNA的捕獲磁珠隨后放入PTP板中進行后繼的測序。PTP孔的直徑(29um)只能容納一個磁珠(20um)。然后將PTP板放置在GS FLX中,測序開始。放置在四個單獨的試劑瓶里的四種堿基,依照T、A、C、G的順序依次循環(huán)進入PTP板,每次只進入一個堿基。如果發(fā)生堿基配對,就會釋放一個焦磷酸。這個焦磷酸在ATP硫酸化酶和螢光素酶的作用下,經過一個合成反應和一個化學發(fā)光反應,終將螢光素氧化成氧化螢光素,同時釋放出光信號。此反應釋放出的光信號實時被儀器配置的高靈敏度CCD捕獲到。有一個堿基和測序模板進行配對,就會捕獲到一分子的光信號;由此一一對應,就可以、快速地確定待測模板的堿基序列。這也就是大名鼎鼎的焦磷酸測序。
6)數(shù)據分析:GS FLX系統(tǒng)在10小時的運行當中可獲得100多萬個讀長,讀取超過4-6億個堿基信息。GS FLX 系統(tǒng)提供兩種不同的生物信息學工具對測序數(shù)據進行分析,適用于不同的應用:達400 MB的從頭拼接和任何大小基因組的重測序。
GS FLX系統(tǒng)的率在99%以上。其主要限制來自同聚物,也就是相同堿基的連續(xù)摻入,如AAA或GGG。由于沒有終止元件來阻止單個循環(huán)的連續(xù)摻入,同聚物的長度就需要從信號強度中推斷出來。這個過程就可能產生誤差。因此,454測序平臺的主要錯誤類型是插入-缺失,而不是替換。
新升級讓性能提升
去年底發(fā)布的Titanium系列試劑,是對現(xiàn)有GS FLX平臺的重要升級。升級內容包含耗材、試劑和軟件。你無需對儀器的硬件做任何昂貴的升級,只改進試劑和軟件,就能立刻實現(xiàn)性能提升。升級之后,每輪測序能產生100萬個讀長片段,高質量(Q20)的讀長增加至400 bp。第400個堿基的率是99%,之前的更高。通量也提高了5倍,目前每輪運行能獲得4-6億個堿基對,所需時間為10小時。
PTP平板的創(chuàng)新重設計 重新設計之后,PTP平板上孔的密度更高,利用更小的DNA捕獲磁珠進行金屬覆蓋,改善了信號質量,因此讀長的數(shù)量和長度都明顯改善,同時性更高。目前孔的直徑是29 um,DNA捕獲磁珠的大小是20 um。
改進的測序試劑 改進的GS FLX Titanium試劑顯著降低了背景噪音,因此在幾乎相同的運行時間內,讀長更加長。升級的軟件 優(yōu)化用于超高通量測序的軟件,能輕松對更大、更復雜的基因組進行拼接和作圖。GS FLX 2.0版 它與以前版本的輸出數(shù)據也兼容,讓片段能夠共同拼接和作圖。
廣闊的應用天地
在新一代測序技術中,GS系統(tǒng)是多產的。截至2008年9月,已經發(fā)表了250多篇高質量的paper。其中Nature 20篇、Science 13篇、Cell 6篇、Genome Research 20篇、PNAS 24篇。光是這些數(shù)據就讓人咂舌。這些研究跨越了測序應用的多個方面:82篇全基因組測序論文包括比較基因組學的從頭測序和重測序;54篇小分子RNA研究;37篇聚焦快速興起的宏基因組學;27篇關于轉錄組圖譜分析,包括全轉錄組拼接和表達圖譜;13篇研究染色體結構和表觀遺傳學;10篇有關稀有變異檢測的超深度測序這個新領域;11篇研究古老RNA。其余的文章關注454測序系統(tǒng)的技術和生物信息學。多種多樣的應用彰顯出454測序系統(tǒng)的能力,那些傳統(tǒng)意義上無法用測序來解決的問題現(xiàn)在也一并解決了。
454測序系統(tǒng)除了為多項研究領域開辟了基因組分析之路,同時也加速了探索的步伐。一般來說,研究、分析、撰寫并提交論文,經同行評議后發(fā)表,需要一年左右的時間。而利用Genome Sequencer系統(tǒng)發(fā)表論文的速度,顯然表明454測序結果的數(shù)據質量高,且分析簡單。超長讀長與易用的分析工具相結合,讓研究人員能更集中精力于科學研究,而不是研究測序過程中的某個技術細節(jié)。這樣研究項目能快速完成,接著踏上新的研究道路。
與其他新一代測序平臺相比,454平臺的突出優(yōu)勢是讀長。目前GS FLX系統(tǒng)的序列讀長已超過400 bp。雖然454平臺的測序成本比其他平臺要高很多,不過對于那些需要長讀長的應用,如從頭拼接和宏基因組學,它仍是的選擇。
去年底,美國加利福尼亞大學的研究小組利用的GS FLX Titanium系列試劑對海洋樣品的宏基因組進行測序,發(fā)現(xiàn)了一種的藍藻物種,文章發(fā)表在11月14日的《Science》雜志上。這項研究是系統(tǒng)升級后發(fā)表的首篇文章。研究員Jonathan Zehr對于獲得數(shù)據及分析結果的速度非常震驚。他表示:“多年來我們一直試圖培養(yǎng)這種微生物,但都沒有成功。有了GS FLX Titanium,我們在幾天之內就通過單次測序運行,從環(huán)境樣品直接獲得了寶貴的基因組信息。這個系統(tǒng)超長的讀長對于我們從復雜的微生物群體中鑒定并分析這種*的細菌基因組來說非常關鍵。”
近,在454測序平臺的協(xié)助下,研究人員完成了油棕櫚的全基因組測序、拼接和注釋。油棕櫚是一種重要的經濟作物,它的基因組很大,達17 GB?;蚪M的測序工作是由GS FLX Titanium系統(tǒng)完成的,拼接和分析則是由馬來西亞一家生物信息學公司完成的。值得注意的是,這是*次在沒有添加傳統(tǒng)Sanger測序數(shù)據的情況下,完成了對大且非常復雜的植物基因組進行從頭拼接。這種快速經濟的方法為了解多種經濟作物的遺傳結構打開了大門。
此外,羅氏旗下的另一家公司NimbleGen正在性地捕獲定向重測序市場。NimbleGen序列捕獲芯片與454的測序儀結合,能讓完整的人外顯組測序成為現(xiàn)實,終將為研究流水線輸送技術,并促進個性化醫(yī)療的開發(fā).
ABI測序儀
過去20年,美國應用生物系統(tǒng)公司(ABI)在測序方面一直占據著壟斷地位。自公司的共同創(chuàng)始人Leroy Hood在上世紀80年代中期設計了*臺自動熒光測序儀之后,生命科學研究就擺脫了手工測序的繁瑣和辛勞,驕傲地邁入自動測序的新時代。直到2005年,454推出了FLX焦磷酸測序平臺,ABI的地位開始有些動搖。之后,ABI迅速收購了一家測序公司——Agencourt Personal Genomics,并在2007年底推出了SOLiD 新一代測序平臺。從SOLiD到如今的SOLiD 3,短短一年多時間,它已經上演了一出精彩的“方程式賽車”。
SOLiD全稱為supported oligo ligation detetion,它的*之處在于以四色熒光標記寡核苷酸的連續(xù)連接合成為基礎,取代了傳統(tǒng)的聚合酶連接反應,可對單拷貝DNA片段進行大規(guī)模擴增和高通量并行測序。就通量而言,SOLiD 3系統(tǒng)是的,目前SOLiD 3單次運行可產生50GB的序列數(shù)據,相當于17倍人類基因組覆蓋度。而其無以倫比的性、系統(tǒng)可靠性和可擴展性更讓它從其他新一代測序平臺中脫穎而出。為什么SOLiD能輕松實現(xiàn)貌似不可能的任務?讓生物通帶你從測序原理入手,一探究竟。
SOLiD工作流程
a. 文庫制備
SOLiD系統(tǒng)能支持兩種測序模板:片段文庫(fragment library)或配對末端文庫(mate-paired library)。使用哪一種文庫取決于你的應用及需要的信息。片段文庫就是將基因組DNA打斷,兩頭加上接頭,制成文庫。如果你想要做轉錄組測序、RNA定量、miRNA探索、重測序、3’, 5’-RACE、甲基化分析、ChIP測序等,就可以用它。如果你的應用是全基因組測序、SNP分析、結構重排/拷貝數(shù),則需要用配對末端文庫。配對末端文庫是將基因組DNA打斷后,與中間接頭連接,再環(huán)化,然后用EcoP15酶切,使中間接頭兩端各有27bp的堿基,再加上兩端的接頭,形成文庫。
b. 乳液PCR/微珠富集
在微反應器中加入測序模板、PCR反應元件、微珠和引物,進行乳液PCR(Emulsion PCR)。PCR完成之后,變性模板,富集帶有延伸模板的微珠,去除多余的微珠。微珠上的模板經過3’修飾,可以與玻片共價結合??吹竭@里,是不是有一種似曾相識的感覺呢?那就對了,此步驟與454的GS FLX基本相同。不過SOLiD系統(tǒng)的微珠要小得多,只有1 um。
乳液PCR大的特點是可以形成數(shù)目龐大的獨立反應空間以進行DNA擴增。其關鍵技術是“注水到油”,基本過程是在PCR反應前,將包含PCR所有反應成分的水溶液注入到高速旋轉的礦物油表面,水溶液瞬間形成無數(shù)個被礦物油包裹的小水滴。這些小水滴就構成了獨立的PCR反應空間。理想狀態(tài)下,每個小水滴只含一個DNA模板和一個P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介導的PCR反應,這個DNA模板的拷貝數(shù)量呈指數(shù)級增加,PCR反應結束后,P1磁珠表面就固定有拷貝數(shù)目巨大的同來源DNA模板擴增產物。
c. 微珠沉積
3’修飾的微珠沉積在一塊玻片上。在微珠上樣的過程中,沉積小室將每張玻片分成1個、4個或8個測序區(qū)域。SOLiD系統(tǒng)大的優(yōu)點就是每張玻片能容納更高密度的微珠,在同一系統(tǒng)中輕松實現(xiàn)更高的通量。
d. 連接測序
這一步可就是SOLiD的了。它的*之處在于沒有采用慣常的聚合酶,而用了連接酶。SOLiD連接反應的底物是8堿基單鏈熒光探針混合物。連接反應中,這些探針按照堿基互補規(guī)則與單鏈DNA模板鏈配對。探針的5’末端分別標記了CY5、Texas Red、CY3、6-FAM這4種顏色的熒光染料。探針3’端1~5位為隨機堿基,可以是ATCG四種堿基中的任何一種堿基,其中第1、2位構成的堿基對是表征探針染料類型的編碼區(qū),下圖的雙堿基編碼矩陣規(guī)定了該編碼區(qū)16種堿基對和4種探針顏色的對應關系,而3~5位的“n”表示隨機堿基,6~8位的“z”指的是可以和任何堿基配對的特殊堿基。
單向SOLiD測序包括五輪測序反應,每輪測序反應含有多次連接反應。*輪測序的*次連接反應由連接引物“n”介導,由于每個磁珠只含有均質單鏈DNA模板,所以這次連接反應摻入一種8堿基熒光探針,SOLiD測序儀記錄下探針第1、2位編碼區(qū)顏色信息,隨后的化學處理斷裂探針3’端第5、6位堿基間的化學鍵,并除去6~8位堿基及5’末端熒光基團,暴露探針第5位堿基5’磷酸,為下一次連接反應作準備。因為*次連接反應使合成鏈多了5個堿基,所以第二次連接反應得到模板上第6、7位堿基序列的顏色信息,而第三次連接反應得到的是第11、12位堿基序列的顏色信息……
幾個循環(huán)之后,引物重置,開始第二輪的測序。由于第二輪連接引物n-1比*輪錯開一位,所以第二輪得到以0,1位起始的若干堿基對的顏色信息。五輪測序反應反應后,按照第0、1位,第1、2位... …的順序把對應于模板序列的顏色信息連起來,就得到由“0,1,2,3…”組成的SOLiD原始顏色序列。
e. 數(shù)據分析
SOLiD測序完成后,獲得了由顏色編碼組成的SOLiD原始序列。理論上來說,按照“雙堿基編碼矩陣”,只要知道所測DNA序列中任何一個位置的堿基類型,就可以將SOLiD原始顏色序列“解碼”成堿基序列。但由于雙堿基編碼規(guī)則中雙堿基與顏色信息的簡并特性(一種顏色對應4種堿基對),前面堿基的顏色編碼直接影響緊跟其后堿基的解碼,所以一個錯誤顏色編碼就會引起“連鎖解碼錯誤”,改變錯誤顏色編碼之后的所有堿基。
和其它所有測序儀一樣,測序錯誤在所難免,關鍵是對測序錯誤的評價和后續(xù)處理。由于SOLiD系統(tǒng)采用了雙堿基編碼技術,在測序過程中對每個堿基判讀兩遍,從而減少原始數(shù)據錯誤,提供內在的校對功能。這樣,雙保險確保了SOLiD系統(tǒng)原始堿基數(shù)據的度大于99.94%,而在15X覆蓋率時的度可以達到99.999%,是目前新一代基因分析技術中度高的。
為避免“連鎖解碼錯誤”的發(fā)生,SOLiD數(shù)據分析軟件不直接將SOLiD原始顏色序列解碼成堿基序列,而是依靠reference序列進行后續(xù)數(shù)據分析。SOLiD序列分析軟件首先根據“雙堿基編碼矩陣”把reference堿基序列轉換成顏色編碼序列,然后與SOLiD原始顏色序列進行比較,來獲得SOLiD原始顏色序列在reference的位置,及兩者的匹配性信息。Reference轉換而成的顏色編碼序列和SOLiD原始序列的不匹配主要有兩種情況:“單顏色不匹配”和“兩連續(xù)顏色不匹配”。由于每個堿基都被獨立地檢測兩次,且SNP位點將改變連續(xù)的兩個顏色編碼,所以一般情況下SOLiD將單顏色不匹配處理成測序錯誤,這樣一來,SOLiD分析軟件就完成了該測序錯誤的自動校正;而連續(xù)兩顏色不匹配也可能是連續(xù)的兩次測序錯誤,SOLiD分析軟件將綜合考慮該位置顏色序列的一致性及質量值來判斷該位點是否為SNP。
在初步了解了SOLiD系統(tǒng)的工作原理之后,我們才能明白它的魅力所在。
系統(tǒng)可擴展性
SOLiD系統(tǒng)采用開放玻片式的結構,使用包被DNA樣品的微珠來輸入基因組信息。微珠密度并不是一成不變的,系統(tǒng)支持更高密度的微珠富集。開放式玻片形式、微珠富集、以及軟件算法的結合,能使平臺輕松升級到更高的通量,而無需對基礎技術和配置做重大改變。這也是SOLiD系統(tǒng)平均每季度將通量擴大一倍的原因所在。
無以倫比的通量
目前SOLiD 3系統(tǒng)單次運行能產生50 GB的人基因組序列數(shù)據,相當于基因組的17倍覆蓋度,這顯然是其他任一臺新一代測序系統(tǒng)都無法達到的。今年初,ABI公司和貝勒醫(yī)學院人類基因組測序中心(HGSC)的科學家總結了他們在千人基因組計劃數(shù)據發(fā)布中的貢獻。作為商業(yè)參與者以及與HGSC共同協(xié)作,ABI公司利用SOLiD系統(tǒng)產生了超過460 GB可作圖的序列數(shù)據,比這兩個機構的預定目標高出了65%。而通量的升高也有望進一步降低基因組測序的費用,成本只需1萬美元的人類基因組測序指日可待。
大的靈活性
SOLiD 3系統(tǒng)具有兩個獨立的流動室,讓用戶能在一臺SOLiD分析儀中運行兩個獨立的實驗——同時提供兩套儀器。玻片也能分成1個、4個或8個小室。而20個條形碼序列則提供了額外的靈活性,顯著增加了定向重測序、表達和ChIP分析的經濟性。目前多能同時運行320個樣品(2×8×20)。
至此,SOLiD系統(tǒng)已不再是一臺單純的測序儀,而是成為功能更的基因分析儀。除了測序和重測序,還能進行全基因表達圖譜分析、SNP、microRNA、ChIP、甲基化等多種分析。
全基因表達圖譜分析
芯片大概是目前應用廣泛的從全局角度分析基因表達整體模式的方法。然而,基于雜交技術的微陣列技術只限用于已知序列,無法檢測新的mRNA;而且雜交技術靈敏度有限,難以檢測低豐度的目標(需要更多的樣品量),難以檢測重復序列;也無法捕捉到目的基因表達水平的微小變化------而這恰恰是研究在刺激下或環(huán)境變化時的生物反應所必需的。
與芯片技術相比,基于測序的高靈敏SOLiD技術可對單個細胞和癌癥樣品中存在的痕量RNA進行整體的全基因組表達圖譜分析,每次運行能定位高達2億4千萬個標簽(mRNA的相對表達水平可通過系統(tǒng)產生的序列標簽數(shù)目來計算),可檢測低至每個細胞中10-40pg的總RNA,即使mRNA表達水平很低,SOLiD系統(tǒng)也能夠無偏向性地分析樣品中存在的已知和未知mRNA,從而定量特定mRNA的差異表達模式。起始樣品比微陣列技術要少得多,尤其適用于來源極為有限的生物樣品分析,如癌癥干細胞----分析其基因和非編碼RNA的表達圖譜有助于有助于加速發(fā)掘潛在的生物標志物,從而更區(qū)分不同的疾病類型以及識別疾病易感性,幫助于研究人員更好地了解病變細胞的特性。
更多RNA研究
除了單細胞基因表達圖譜分析,SOLiD系統(tǒng)在RNA方面的其他應用還包括利用SOLiD Small RNA Expression Kit來發(fā)現(xiàn)和篩選小分子RNA,實現(xiàn)在無需預先知道序列信息的情況下高通量發(fā)現(xiàn)新的RNA分子。這個方案有望顯著地提高研究人員鑒別小分子RNA的能力,將過去不可能完成的實驗變?yōu)榭赡堋D壳耙寻l(fā)現(xiàn)的microRNAs還非常有限,SOLiD可在不知道目標分子DNA序列的情況下進行檢測和定量小的RNA分子,可將樣品制備工作從常規(guī)方法的四天縮短為僅需一天,是分析在生物樣品中表達的已知和未知miRNA及其它小分子RNAs的有效工具。利用SOLiD Whole Transcriptome Kit還可以探索和鑒定全轉錄本。SOLiD*的高通量和測序數(shù)據的高性使得可以用短序列讀長即可測序整個轉錄組。了解轉錄組對有助于解開導致復雜疾病的分子通路的秘密。這一系列應用補充使研究人員能在單個超高通量平臺上開展綜合的RNA研究。
SNP分析
盡管絕大多數(shù)的人類遺傳信息在所有人中都相同,但是研究人員通常更感興趣的是研究個體之間微小的遺傳差異。這種差異包括單堿基變異,以及被稱為結構變異的各種較大片段DNA序列變異。結構變異包括DNA片段的插入、缺失、倒位和易位,結構變異的DNA片段范圍可從幾個堿基對到數(shù)百萬個堿基對,可能對基因產生重要影響,并導致人類疾病的發(fā)生。SOLiD流程獲得的嚴密的片段范圍,使研究人員可以鑒別出很寬范圍內的插入和缺失片段,結構重排也能很容易鑒別出來。這個平臺的超高通量使研究人員可輕而易舉地獲得高度基因組覆蓋率的數(shù)據,鑒定個體基因組中存在的數(shù)百萬個單堿基多態(tài)性SNP,揭示此前未知、具有潛在醫(yī)學價值的遺傳變異,從而促進我們對正常/疾病狀態(tài)下DNA結構變異的了解,以及在更高的分辨率下對結構變異進行深入分析,解釋個體之間的易感性差異和對疾病治療應答的差異,終實現(xiàn)個性化醫(yī)療。
甲基化分析
甲基化是自然發(fā)生的DNA化學修飾的一種。已知抑癌基因的失活與DNA序列特定區(qū)域的甲基化有關。而去甲基化則可能導致基因組不穩(wěn)定和表達模式變化。DNA甲基化區(qū)域可能作為基因在癌癥過程中的標記。研究人員一直研究從正常到癌變過程中甲基化模式如何變化的,原癌基因異常甲基化模式在癌變過程中扮演怎樣的角色。SOLiD系統(tǒng)運行通量非常驚人,很快就可以做多個樣本全基因組甲基化模式檢測,使得研究人員可以鑒別基因組中對應元件的甲基化狀態(tài),從而幫助研究人員檢測甲基化模式是否可以作為癌癥的生物標識,以及更好了解甲基化在癌變過程中扮演的角色。