- 免費試聽
- 免費直播
10月31日 19:00-21:00
詳情11月06日 19:00-21:00
詳情爆炸式增長的測序數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù)以及圖像數(shù)據(jù)讓從事生命科學(xué)研究的科研人員們未來有機會不用再做真實的試驗(即我們常說的“濕試驗”)。他們只需要通過對這些數(shù)據(jù)進行分析(即我們常說的“干試驗”)就可以開展科學(xué)研究,獲得最基礎(chǔ)的科研發(fā)現(xiàn)。
大部分從事生命科學(xué)研究的科研人員一輩子可能也就會關(guān)注某一個物種,或者某一種疾病,甚至可能只是其中的某一條信號通路。因為學(xué)會養(yǎng)一種細胞或者某項實驗技術(shù)至少都需要好幾個月的時間??葾tul Butte卻是一個例外,他不停地更換研究對象和方向,可是卻總有新發(fā)現(xiàn)。今年只有44歲的Butte已經(jīng)是美國斯坦福大學(xué)(Stanford University's School of Medicine in Palo Alto, California)的一名終身教師了,因為他在糖尿病、肥胖癥、移植排斥反應(yīng)以及新藥發(fā)現(xiàn)(主要是發(fā)現(xiàn)治療肺癌的新藥,以及治療其它一些疾病的新藥)等方面都頗有建樹。
Butte的實驗室也和他本人一樣與眾不同,在Butte的實驗室里看不到普通實驗室里那些瓶瓶罐罐,他的實驗室看起來更像是一間IT工作室或軟件開發(fā)工 作室。大部分時間他都在那臺索尼筆記本電腦上工作,有時他也會去斯坦福大學(xué)的大型計算機中心,或者其他機構(gòu)的超級計算機房工作,那主要是因為他需要做大量 的數(shù)據(jù)運算工作。Butte和他實驗室的學(xué)生、博士后們既不養(yǎng)細胞,也不做DNA測序,他們所做的就是搜集、使用并分析各個公開數(shù)據(jù)庫里現(xiàn)有的信息,這些 數(shù)據(jù)庫包括人類基因組序列數(shù)據(jù)庫(human genome sequences)、腫瘤基因組序列數(shù)據(jù)庫(cancer genome readouts)、腦掃描成像數(shù)據(jù)庫(brain imaging scans)以及糖尿病、阿爾茨海默病等多種疾病相應(yīng)的生物標志物數(shù)據(jù)庫(biomarkers)等。醫(yī)學(xué)教育網(wǎng)`搜集整理
這種研究方式就是我們常說的“干試驗(dry lab biology)”,因為傳統(tǒng)的試驗都是會用到各種試劑的“濕試驗”。雖然沒有人統(tǒng)計過這樣的干試驗科學(xué)家究竟有多少,但可以肯定他們只是一小部分人,不 過他們的人數(shù)也在不斷增長。而Butte就是其中的佼佼者。Butte等人在兩年前曾經(jīng)使用這些公開的數(shù)據(jù),對患有100多種不同疾病的人群體內(nèi)的一些基 因,以及分別用市面上164種藥物處理過的培養(yǎng)細胞中的這些基因的活性進行過分析。然后他們發(fā)現(xiàn)了一些新的、存在于這些基因之間的相互聯(lián)絡(luò)方式。 Butte等人通過比較患病或用藥情況下基因表達的開啟情況,發(fā)現(xiàn)在這些基因之間有很多新的聯(lián)系渠道。比如他們就發(fā)現(xiàn)有一款用于治療潰瘍的藥物也許能夠用 來治療肺癌;還有一款抗癲癇的藥物也許能夠用來治療兩種炎癥性腸病(in?ammatory bowel disease)。而且這兩種觀點都已經(jīng)被后續(xù)的動物試驗給證實了。就在上個月,Butte的團隊又在《腫瘤發(fā)現(xiàn)》(Cancer Discovery)雜志上發(fā)表了一篇論文,他們又用這一套發(fā)現(xiàn)用抗抑郁藥物丙咪嗪(imipramine)治療常規(guī)化療無效的小細胞肺癌(small- cell lung cancers)肯定會獲得很好的治療效果。已經(jīng)有人根據(jù)這一發(fā)現(xiàn)啟動了相關(guān)的臨床試驗工作。“現(xiàn)在就是做‘干試驗’研究的黃金時期。” Butte總結(jié)道。
發(fā)現(xiàn)新藥。Atul Butte的課題組通過對與藥物和疾病相關(guān)的基因表達譜公共數(shù)據(jù)庫里的大數(shù)據(jù)進行分析,發(fā)現(xiàn)了一些能夠加重病情(圖中紫色所示)或緩解病情(圖中黃色所示)的藥物。之后的研究也確證抗癲癇藥物托吡酯的確能夠治療克羅恩病或潰瘍性結(jié)腸炎等疾病。
這不僅僅是Butte一個人的黃金期,基因組序列、基因表達活性、蛋白質(zhì)結(jié)構(gòu)以及蛋白間相互作用的公共數(shù)據(jù)庫越來越多,所以也為眾多的生物學(xué)家們提供了一 個新的研究領(lǐng)域。得益于計算機運算能力、數(shù)據(jù)存儲能力、軟件等IT產(chǎn)業(yè)的發(fā)展,干試驗也能夠在不需要用移液器、染細胞或解剖動物的情況下抽絲剝繭般地取得 最基礎(chǔ)的科研成果。比如美國科學(xué)基金會(National Science Foundation)就成立了一個iPlant項目(iPlant Collaborative),這就催生出了一大批從事數(shù)據(jù)分析工作的所謂“植物生物學(xué)家”,他們從來就沒有親自下過地,也沒有澆灌過植物的種子。美國國 立衛(wèi)生研究院(National Institutes of Health, NIH)最近也宣布,他們計劃投入9600萬美元支撐大數(shù)據(jù)分析工作。美國加州大學(xué)洛杉磯分校(University of California, Los Angeles)的神經(jīng)遺傳學(xué)家Daniel Geschwind就認為,生物學(xué)界正在發(fā)生一場大變革。
數(shù)據(jù)發(fā)掘者。上圖展示的就是最新的iPlant項目??茖W(xué)家們通過該項目對植物和微生物的基因組進行深入的發(fā)掘,幫助全世界的植物學(xué)家們更好地認識最基礎(chǔ)的生物學(xué)問題,也能夠為植物育種工作提供幫助。
美國洛杉磯微軟研究院(Microsoft Research in Los Angeles)的計算機專家David Heckerman也贊同地指出,現(xiàn)在干生物學(xué)研究真的可以不需要傳統(tǒng)的‘濕式’實驗室了。不過沒有一位“干試驗”生物學(xué)家們認為他們的數(shù)據(jù)分析工作能夠 取代傳統(tǒng)的濕試驗工作。他們反而認為現(xiàn)在是干試驗與濕試驗最為融洽,結(jié)合得最緊密的一個時期,這兩個方向互相促進,共同發(fā)展。
“我就好像是一個進了糖果店的小孩子,好東西太多了,我完全看不過來。”——美國斯坦福大學(xué)醫(yī)學(xué)院Atul Butte
數(shù)據(jù)為王
大數(shù)據(jù)其實并不是一個新鮮的概念,《科學(xué)》(Science)雜志曾在2011年的2月11日做過專題報道。歐洲粒子物理研究所(CERN)的大型強子對撞機(Large Hadron Collider)每年都能夠產(chǎn)生15帕字節(jié)(petabytes)的數(shù)據(jù)。天文學(xué)界的斯隆數(shù)字巡天項目(Sloan Digital Sky Survey)每年也要產(chǎn)生好幾TB(terabytes)的數(shù)據(jù)。大數(shù)據(jù)對生物學(xué)家們也并不是一個新鮮的事務(wù)。比如截止今年的8月底,在NIH運行了31年的基因序列數(shù)據(jù)庫GenBank里已經(jīng)收納了1.67億條基因序列,約合1540億bp的數(shù)據(jù)。
而且這也不是計算科學(xué)與生物學(xué)的第一次結(jié)合。生物學(xué)家們多年以來也一直在收集大規(guī)模的生物學(xué)數(shù)據(jù),我們熟知的基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等各種毫無新 意的組學(xué)就是明證。生物學(xué)家們一直在對這些數(shù)據(jù)進行整理和梳理的工作,希望能夠從中找到一些復(fù)雜的生物學(xué)網(wǎng)絡(luò),或者與疾病相關(guān)的信號通路等新成果。
不過之前開展的這一類工作都是由大批的科研人員共同參與來完成的,而且他們還都搶先了一步,在數(shù)據(jù)公布之前就開始了工作。不過現(xiàn)在這些數(shù)據(jù)已經(jīng)全都公諸于 眾了,之前沒有資格參加這些項目的科研人員現(xiàn)在也能夠自由地獲取這些數(shù)據(jù),開展自己感興趣的研究工作。美國康奈爾大學(xué)(Cornell University)的遺傳學(xué)家,為農(nóng)業(yè)部下屬的農(nóng)業(yè)調(diào)查研究項目(U.S. Department of Agriculture's Agricultural Research Service)工作的Ed Buckler是研究玉米的專家,他評價道:“現(xiàn)在這些數(shù)據(jù)全都公開了,也是我們這些人提出大數(shù)據(jù)問題的時候了。”
不過,要提出這些問題就需要專門的算法和軟件,要能夠處理大量的數(shù)據(jù),而且這些軟件還必須與時俱進,隨著數(shù)據(jù)的增長不斷地加以改進。Heckerman和 他在微軟研究院的同事們最近就做出了一款軟件,利用該軟件就能夠方便地在遺傳數(shù)據(jù)庫里進行大規(guī)模的搜索,比如進行全基因組關(guān)聯(lián)研究(genome- wide association studies, GWAS)這樣的全基因組比對工作。通過對健康人群的基因組和患病人群的基因組進行比對就可以找出與疾病相關(guān)的遺傳指紋(genetic fingerprints)。這些遺傳指紋可以非常細小,因為大部分疾病都不像典型的孟德爾式遺傳疾病那樣具有典型的、單純的性狀(不像豆子顏色這種性狀 這么簡單),每一個性狀都不是與單個基因一一對應(yīng)的。據(jù)Heckerman介紹,當(dāng)人們第一次開始做GWAS分析時,他們會認為這項工作非常簡單??蓡栴} 在于孟德爾的豆子只是一個例外,并不能代表大千世界里的萬物。
其實絕大部分性狀或糖尿病、前列腺癌等疾病背后的遺傳基礎(chǔ)都非常復(fù)雜,多個基因可能也只會帶來很小的一點影響,這些基因的作用彼此之間還具有疊加效應(yīng)。 “如果要發(fā)現(xiàn)這種微弱的信號,那就必須利用大數(shù)據(jù)。需要對上萬,甚至是數(shù)十萬的人進行比較才有可能發(fā)現(xiàn)一點有價值的線索。不過這里也有一個小竅門。當(dāng)你對 大量的數(shù)據(jù)進行分析時會有一些發(fā)現(xiàn),比如發(fā)現(xiàn)每一個人都會有一些遺傳相似點。但是在很多情況下,這些相似點其實只是代表了這兩個人之間更加相似,而不是因 為他們都攜帶了某種疾病相關(guān)基因。這會給我們的數(shù)據(jù)分析帶來麻煩,我們會發(fā)現(xiàn)大量的可疑信號,可是當(dāng)我們再仔細分析一番之后就會發(fā)現(xiàn)這些其實只是假陽性信 號。” Heckerman介紹說。
線性混合模型(linear mixed model)就是一種能夠有效解決上述問題的數(shù)據(jù)分析方法。該方法能夠有效去除假陽性信號,但是需要強大的運算能力,是被分析數(shù)據(jù)量的三次方,如果被分析 的數(shù)據(jù)增加10倍,那么運算能力需要增加1000倍。如果只需要分析幾十個人的數(shù)據(jù)還沒太大問題,但是如果要對上萬人的基因組數(shù)據(jù)進行梳理那可就麻煩了。 “在這種情況下你最好忘記這種方法。” Heckerman這樣說道。
Heckerman等人關(guān)注這個問題不久之后就想到了一個非常簡單的解決辦法,他們稱之為“代數(shù)妙計(algebraic tricks)”,通過這種方法可以將上述問題轉(zhuǎn)換成線性問題,這樣就能夠?qū)Υ髷?shù)據(jù)進行分析了。最終將這款軟件命名為FaST-LMM,它大大減少了不可 靠的結(jié)果,同時數(shù)據(jù)處理量也有所提高,從而增加了發(fā)現(xiàn)真實但微弱信號的機會。Heckerman的團隊去年在微軟的云計算機Azure上用這款FaST- LMM軟件對Wellcome基金會(Wellcome Trust)數(shù)據(jù)庫里數(shù)千人的基因組進行了比對。一共分析了63,524,915,020對遺傳標志物(genetic markers),結(jié)果又新發(fā)現(xiàn)了很多與雙相性精神障礙(bipolar disorder)、冠心?。╟oronary artery disease)、高血壓病(hypertension)、炎癥性腸?。╥n?ammatory bowel disease)、類風(fēng)濕性關(guān)節(jié)炎(rheumatoid arthritis)、1、2型糖尿?。╰ype 1 and type 2 diabetes)等疾病強相關(guān)的分子標志物,詳見今年1月22日出版的《科學(xué) 報道》(Scienti?c Reports)雜志。Heckerman等人將這些新發(fā)現(xiàn)的標志物毫無保留地全都共享到Windows Azure Marketplace上,我們可以到網(wǎng)上找到這些信息,對自己感興趣的標志物進行更加深入的研究。
但是Butte也做出了提醒,很多時候,這些通過干試驗發(fā)現(xiàn)的關(guān)聯(lián)如果詳加研究就會發(fā)現(xiàn)其實并不是真實的關(guān)聯(lián),但是他也非常歡迎軟件工程師們加入到生物學(xué)研究的行列當(dāng)中,他說道:“我們一直都有這種期望。”
干試驗對生物醫(yī)藥行業(yè)的研究遠遠不止GWAS研究這一項工作。美國哥倫比亞大學(xué)(Columbia University)的Asa Abeliovich今年8月1日就在《自然》(Nature)雜志上發(fā)表了一篇文章,他們使用大數(shù)據(jù)分析的方法又發(fā)現(xiàn)了一個新的分子,該分子能夠部分決 定攜帶了APOE4這種常見基因的人是否會患上阿爾茨海默病。他們使用的也是公共數(shù)據(jù)庫里的數(shù)據(jù),這個數(shù)據(jù)庫是一個基因表達數(shù)據(jù)庫,里面收錄的全都是遲發(fā) 型阿爾茨海默病患者和正常人腦組織的基因表達數(shù)據(jù)。他們一共發(fā)現(xiàn)了兩個基因,分別是SV2A和RNF219,這兩個基因在患者體內(nèi)的表達活性都非常低。
再結(jié)合之前對這些基因進行功能研究所得到的數(shù)據(jù),最后發(fā)現(xiàn)這些基因其實都是一個調(diào)控網(wǎng)絡(luò)的一份子,該調(diào)控網(wǎng)絡(luò)主要對胞內(nèi)淀粉樣蛋白前體(amyloid precursor protein)的積聚進行調(diào)控。這些淀粉樣蛋白聚集在阿爾茨海默病患者大腦里的致密斑(dense plaques)處,可能與患者發(fā)病有關(guān)。Abeliovich團隊后來在實驗室里用小鼠動物實驗驗證了這個結(jié)果,然后又繼續(xù)對人進行了驗證,不過還是開 展干試驗研究。這一次他們選擇了公共的阿爾茨海默病患者腦掃描成像數(shù)據(jù)庫,結(jié)果發(fā)現(xiàn)RNF219突變基因與淀粉樣蛋白的積聚有關(guān)。
這一發(fā)現(xiàn)不僅為我們開發(fā)阿爾茨海默病新藥提供了新的靶點,同時也可以幫助臨床醫(yī)生們對阿爾茨海默病患者進行分類和有針對性的治療,就好像現(xiàn)在的腫瘤醫(yī)生們 那樣。這種將數(shù)據(jù)發(fā)掘、實驗室驗證以及腦掃描成像驗證相結(jié)合的工作也給Geschwind留下了極為深刻的印象,他評價道:“五年前根本就不敢想象開展這 樣的工作。”
除了生物醫(yī)藥領(lǐng)域之外的應(yīng)用
隨著經(jīng)過全基因組測序的植物數(shù)量快速的增長,以及相關(guān)數(shù)據(jù)的不斷公布,植物學(xué)家們也可以開展他們的干試驗工作了。比如Buckler等人就在多個玉米品種 間尋找抗病基因。他們最近發(fā)表了一篇論文,介紹了他們對103種不同的玉米進行全基因組比對的工作,他們一共對1000多個不同的DNA區(qū)域進行了比對, 這些區(qū)域有的是位于基因內(nèi)部的,也有位于基因編碼區(qū)外的。然后將玉米的某些性狀,比如抗病性和開花時間等性狀與某些特殊的非編碼DNA聯(lián)系了起來?,F(xiàn)在他 們正在利用這些研究成果輔助育種工作,希望提高玉米的抗病性,或者添加一些其它性狀。“大數(shù)據(jù)已經(jīng)對我們的育種工作帶來了切實可見的改變。” Buckler總結(jié)說。
這種工作還有助于回答一些與植物相關(guān)的更加神秘的問題。加拿大渥太華大學(xué)(University of Ottawa)的數(shù)學(xué)家David Sankoff已經(jīng)對30多種開花植物的全基因組進行了分析,他試圖重建出1.2億年之前存在的,所有開花植物共同祖先的基因組結(jié)構(gòu),即找出所有開花植物 的共有基因組結(jié)構(gòu),而不是簡單的共有DNA序列。他們最近也取得了重大突破,該工作也已經(jīng)被寫成論文進行了發(fā)表。他們對現(xiàn)代真雙子葉植物 (eudicots,這是一種非常重要的開花類植物)里是否存在基因的雙拷貝或三拷貝情況進行了分析和比較,最終推斷出開花植物的祖先共有7條染色體,大 約含有2萬至3萬個基因,這個基因組要比現(xiàn)在很多植物的基因組小得多。雖然這一發(fā)現(xiàn)可能不會對植物育種工作帶來太大的影響,也不具有很大的商業(yè)利益,但是 美國亞利桑那州立大學(xué)(University of Arizona)的植物遺傳學(xué)家Eric Lyons認為,這也是一項非常有意思的遺傳學(xué)研究工作。Sankoff等人使用的比對基因組數(shù)據(jù)庫和用來分析數(shù)據(jù)的軟件都是由Lyons開發(fā)的。
通力合作
干試驗生物學(xué)研究也面臨著很多的問題和困難。其中最大的挑戰(zhàn)就是如何獲得其他人的數(shù)據(jù)。很多時候,那些主要工作就是收集數(shù)據(jù)的科研人員是不愿意與其他人分 享數(shù)據(jù)的。他們更愿意在別人利用自己的數(shù)據(jù)有所收獲之前進行數(shù)據(jù)發(fā)掘的工作。另外這些數(shù)據(jù)也有可能非常粗糙,還需要進行進一步的分析或注釋。“這些真的是 很麻煩的問題。我們需要更好的方法來促進大家共享數(shù)據(jù)。” Butte這樣說道。
缺乏統(tǒng)一的標準也是一個問題。每一個科研團體用來儲存數(shù)據(jù)的軟件可能都不一樣,這些數(shù)據(jù)的格式也是千差萬別的,很多時候連試驗設(shè)計都不一樣,所以所能得到 的準確結(jié)果也有所差異。Butte等人認為處理這些不同格式的數(shù)據(jù)是最麻煩的,不過這也不是不能解決的問題。更大的困難在于如何對實驗設(shè)計不同的實驗所得 到的數(shù)據(jù)進行比較和分析。
據(jù)Butte介紹,經(jīng)過多年的標準化工作,對實驗設(shè)計、數(shù)據(jù)分析,使用包括DNA或RNA芯片、以及蛋白質(zhì)組質(zhì)譜實驗所得到的實驗結(jié)果的解讀所進行的標準化工作終于帶來了回報。對此觀點Heckerman也表示了贊同,他認為生物學(xué)數(shù)據(jù)正在走向標準化。
“進行生物學(xué)研究其實真的不需要傳統(tǒng)意義上的生物學(xué)實驗室。” ——美國微軟研究院David Heckerman
隨著公共數(shù)據(jù)庫的規(guī)模的不斷擴大,大家對遺傳隱私(genetic privacy)的關(guān)注度也變得越來越高。遺傳學(xué)家們已經(jīng)證實了所謂的匿名數(shù)據(jù)是完全不可靠的,很容易就能夠找出這些數(shù)據(jù)的來源,而且任何一點紕漏都會泄 漏個體的隱私,比如他的健康狀況,是否易患某種疾病以及家族史信息等。不過我們目前至少已經(jīng)想出了一個解決方案。我們在開展GWAS研究,或者開發(fā)分子診 斷芯片時往往都要將基因型與表型對應(yīng)起來,這就需要進入美國國家生物技術(shù)信息中心的基因型及表型數(shù)據(jù)庫(National Center for Biotechnology Information?s database of genotypes and phenotypes, dbGaP),但是要使用這個數(shù)據(jù)庫就必須先登記,獲得批準之后才可以使用這些數(shù)據(jù)。另外,所有這些使用申請都會被公布,誰出于什么目的使用了哪些數(shù)據(jù)全 都會大白于天下。
為了解決這些問題,同時也為了能夠更好地利用大數(shù)據(jù)與生物醫(yī)藥研究結(jié)合這個難得一見的科研良機,NIH在今年夏天宣布將啟動一項名為“Big Data to Knowledge (BD2K)”的新項目。該項目主要有兩個目的,在最初的4年里將共計投入約9600萬美元,建立多個研究中心推動新算法、以及其他數(shù)據(jù)分析方法的開發(fā)。 也會推動在NIH的各個研究所里建立多個課題組,攻克與數(shù)據(jù)標準化、數(shù)據(jù)庫準入和遺傳信息隱私等領(lǐng)域相關(guān)的難題。針對這些問題國際上也有所動作,比如有 40個國家的70多家科研機構(gòu)在今年的6月共同參與組成了一個國際聯(lián)盟,旨在推動數(shù)據(jù)盡早公開。
干試驗生物學(xué)研究未來還會迎來一次大發(fā)展,因為美國已經(jīng)要求所有的數(shù)據(jù)庫全都像科研界公開。今年的2月22日,美國科技政策局(U.S. Of?ce of Science and Technology Policy, OSTP)局長John Holdren提交了一份備忘錄,要求美國聯(lián)邦政府各執(zhí)行部門盡快拿出方案,鼓勵并幫助大家使用由美國政府資助開展的科研工作所取得的成果和數(shù)據(jù)。該備忘 錄推出之后因為重點強調(diào)要免費獲取科研論文而備受關(guān)注。但是大家都沒有注意到,在這份備忘錄里也同時提出,要促進由美國政府資助開展的科研工作所取得數(shù)據(jù) (非保密數(shù)據(jù))早日進入公共數(shù)據(jù)庫里。OSTP的官員們表示,他們已經(jīng)拿出了初步的方案,正在進行修改。
Butte認為,雖然這對于從事生物數(shù)據(jù)發(fā)掘工作的科研人員們無疑是一個重大利好消息,但是這也會進一步加重數(shù)據(jù)標準化以及數(shù)據(jù)隱私等方面的問題。同時也 會讓數(shù)據(jù)持有者比較頭疼。因為他們需要自己,或者讓助手來管理這些數(shù)據(jù),準備好錄入數(shù)據(jù)庫,這就增加了很大的工作量。同時也會占用他們一定的精力和科研經(jīng) 費,有可能會影響他們本來的研究工作。美國國立醫(yī)學(xué)研究所生物醫(yī)藥技術(shù)生物信息學(xué)及計算生物學(xué)中心(Division of Biomedical Technology, Bioinformatics, and Computational Biology at the National Institute of General Medical Sciences in Bethesda, Maryland)的項目負責(zé)人Peter Lyster認為這對于小型實驗室的影響更大,他說道:“從某些角度來看,這就是一場零和游戲(zero-sum game)。”
不過這場游戲里的輸家只可能是從事傳統(tǒng)生物學(xué)研究的“濕”實驗室。對于“干”實驗室而言,這些新工具、新政策和新的數(shù)據(jù)只是他們的新機遇,而不會是新負擔(dān)。“我們已經(jīng)準備好大干一場了。” Heckerman說道。
10月31日 19:00-21:00
詳情11月06日 19:00-21:00
詳情