借我一雙慧眼吧!
- 發(fā)布時間:2016-01-12 01:30:35 來源:科技日報 責(zé)任編輯:羅伯特
■今日視點
本報記者 劉 霞
自2000年人類基因組圖譜繪制后,生物學(xué)研究邁入全新的“組學(xué)”時代,科學(xué)家們爭先恐后地測序各種有機生物的基因組或蛋白質(zhì)組。
現(xiàn)在,即使一些簡單的實驗都會產(chǎn)生大量數(shù)據(jù),而從“背景噪音”中獲得想要的結(jié)果則成為了一大挑戰(zhàn)。美國趣味科學(xué)網(wǎng)站近日報道指出,計算機技術(shù)正幫助科學(xué)家們征服這些數(shù)據(jù)大山,甚至提出科學(xué)假設(shè)并對新生物學(xué)進程進行解釋。包括機器學(xué)習(xí)、計算機模擬等數(shù)據(jù)科學(xué)將革新前沿生物學(xué)研究。
機器學(xué)習(xí)變革生物學(xué)研究
盡管科學(xué)家通過基因和蛋白質(zhì)測序讓我們知曉它們的名字和所處方位,但這些并不能告知它們的功能以及工作原理,我們需要理解這些基因、蛋白質(zhì)以及中間成分在不同生物過程中的相互作用,從而最終征服癌癥、心臟病、阿爾茨海默氏癥等多種頑疾,但這會涉及到海量數(shù)據(jù)。
例如,科學(xué)家希望借用DNA測序等“組學(xué)”工具,弄清楚人類哪些基因會受到病毒性流感的影響,但人體包含數(shù)萬個基因,常見的流感研究也會牽涉多達數(shù)千個基因。
計算機在處理海量數(shù)據(jù)方面是一把好手,因為其能同時考慮所有重要條件并進行分析。盡管編寫程序的人也會犯錯,導(dǎo)致程序出錯,但計算機能有效地處理大量數(shù)據(jù)且不會像人一樣產(chǎn)生偏見。生物學(xué)家們將用計算機來解決這些復(fù)雜的問題并定義新的生物學(xué)。
人類也能“教會”計算機在實驗數(shù)據(jù)中發(fā)現(xiàn)特定的模式,這種名為“機器學(xué)習(xí)”的方法首先由“人工智能之父”阿蘭·圖靈于上世紀(jì)50年代提出,借用這一方法,科學(xué)家們可以借助已有數(shù)據(jù)組開發(fā)出新算法模式,從而對新數(shù)據(jù)進行預(yù)測。從這一方面來說,機器學(xué)習(xí)已經(jīng)革新了生物學(xué)研究。
計算機能模擬大腦“思考”
美國亞利桑那州立大學(xué)生物和健康系統(tǒng)工程學(xué)院的斯里·克里希納博士表示,他們正在借助機器學(xué)習(xí)的一種——人工神經(jīng)網(wǎng)絡(luò)(ANN)進行實驗、分析并解決多種疑難問題。
ANN試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理記憶信息的方式進行信息處理。例如,谷歌公司的“深度夢想項目(DDP)”圖像識別軟件就使用了一個功能強大的ANN來對圖片分門別類,甚至生成新圖片。據(jù)國外媒體報道,為了處理網(wǎng)絡(luò)上數(shù)以億計的圖片,谷歌開發(fā)的這個ANN系統(tǒng)會先對大量相似圖片進行處理和學(xué)習(xí),從中找到特定物體獨一無二的特征。
克里希納的研究團隊主要研究免疫系統(tǒng),目的是找到癌癥新療法。在研究中,他們使用ANN計算模型來研究短的表面蛋白質(zhì)編碼,更好地了解各種免疫細胞如何區(qū)分正常(自己的)和反常的(外來的) 事物,從而設(shè)計出更好的疫苗和療法。
克里希納團隊將多年來研究確定的數(shù)以千計蛋白質(zhì)編碼的大數(shù)據(jù)集分成兩組:源于健康人體細胞的正常蛋白質(zhì)編碼與源于病毒、腫瘤和細菌的反常蛋白質(zhì)編碼,接著他們將這些蛋白質(zhì)編碼輸入自己研發(fā)的一臺ANN,新算法能區(qū)分出正常/反常的蛋白質(zhì)編碼。
通過機器學(xué)習(xí)進行預(yù)測
機器學(xué)習(xí)在生物學(xué)領(lǐng)域最重要的應(yīng)用是基于大數(shù)據(jù)進行預(yù)測,測試?yán)碚摬孪搿?/p>
亞利桑那州立大學(xué)應(yīng)用數(shù)學(xué)博士迭戈·丘威爾解釋稱,如在T細胞生物學(xué)領(lǐng)域,弄清楚朝哪個引起病毒感染的蛋白質(zhì)“開火”對疫苗研發(fā)和疾病治療意義重大,但某個病毒可能與多個蛋白質(zhì)編碼有關(guān),因此,很難通過實驗對每個蛋白質(zhì)編碼逐一測試,且測試成本也極其高昂。
他們現(xiàn)在的解決辦法是訓(xùn)練ANN幫助機器學(xué)會自有和外來兩類蛋白質(zhì)編碼所有重要的生物化學(xué)屬性,接著要求其“預(yù)測”哪種蛋白質(zhì)編碼與外來的蛋白質(zhì)編碼類似,并能被T細胞發(fā)現(xiàn)。
他們用很多病毒蛋白質(zhì)對這個ANN模型進行了測試,結(jié)果發(fā)現(xiàn):這個ANN系統(tǒng)能精確地在病毒內(nèi)“揪出”大部分能被T細胞激活的蛋白質(zhì)編碼。研究人員也對找到的蛋白質(zhì)編碼進行了測試,證實了這種ANN預(yù)測的精確性。使用這種ANN模型,科學(xué)家們能快速預(yù)測與某個病毒有關(guān)的所有重要的短蛋白質(zhì)編碼并進行測試,從而找到療法或疫苗,而不是逐一猜測然后進行實驗。
聰明地利用機器學(xué)習(xí)
隨著大數(shù)據(jù)科學(xué)和機器學(xué)習(xí)自身不斷地優(yōu)化,它們在生物學(xué)領(lǐng)域發(fā)揮的作用也越來越大:從厘清哪些生物標(biāo)記結(jié)合在一起能最好地探測出疾病,到理解為何只有某些病人能從特定的療法受益等。
當(dāng)然,計算機也不是萬能的。大數(shù)據(jù)科學(xué)的最大問題是數(shù)據(jù)本身。如果組學(xué)研究獲得的數(shù)據(jù)一開始就是錯的,或者基于偽科學(xué),那么,機器有可能提供錯誤的結(jié)果。還有科學(xué)家擔(dān)心計算機變成數(shù)據(jù)的“黑盒子”,因為他們對計算機內(nèi)進行計算和操控的細節(jié)知之甚少。
克里希納表示,盡管存在這些問題,但大數(shù)據(jù)和計算機帶來的巨大好處將使它們成為科學(xué)研究的“好伙伴”??茖W(xué)家們應(yīng)時刻保持警惕,聰明地利用計算機,最終借助“機器之眼”來更好地揭示生命的奧秘。
熱圖一覽
- 股票名稱 最新價 漲跌幅
- 最嚴(yán)調(diào)控下滬深房價仍漲 人口老齡化影響三四線樓市
- 樂天大規(guī)模退出中國市場 供應(yīng)商趕赴北京總部催款
- 北京16家銀行上調(diào)首套房貸利率 封殺“過道學(xué)區(qū)房”
- 10萬輛共享單車僅50人管遭質(zhì)疑 摩拜ofo優(yōu)勢變劣勢
- 去年聯(lián)通、電信凈利潤均下滑 用戶爭奪漸趨白熱化
- 奧迪否認(rèn)“官民不等價”:優(yōu)惠政策并非只針對公務(wù)員
- 季末銀行考核在即 一日風(fēng)云難改“錢緊錢貴”現(xiàn)狀
- 美圖7小時暴跌四成 虧損業(yè)績?nèi)绾沃?00億市值受拷問
- 監(jiān)管重壓下P2P退出平臺增加 網(wǎng)貸行業(yè)進入冷靜期
- 配資炒股虧損逾百萬 股民將信托公司告上法庭