新聞源 財富源

2025年01月09日 星期四

財經(jīng) > 滾動新聞 > 正文

字號:  

碳云智能首席科學(xué)家李英睿:每個人都是大數(shù)據(jù)載體 生命是多維度系統(tǒng)

  • 發(fā)布時間:2016-01-20 12:13:00  來源:中國廣播網(wǎng)  作者:佚名  責(zé)任編輯:羅伯特

  2016年1月20日,2016全球大數(shù)據(jù)峰會GBDC2016在京舉行。碳云智能聯(lián)合創(chuàng)始人及首席科學(xué)家、華大基因前科學(xué)家及華大科技CEO李英睿做了主題為《管理數(shù)字生活》的演講。他認(rèn)為,每個人都是大數(shù)據(jù)的載體,生命是一個多維度系統(tǒng),希望數(shù)據(jù)科學(xué)和人工智能在未來能解決更多問題。以下是其演講全文:

  李英睿:大家好,我的主題是:管理數(shù)字生活。今天我想跟大家講講現(xiàn)在的生物學(xué)怎么把人看成大數(shù)據(jù)的載體來做的。大家腦子里可能對基因都有一個概念,在我們講的基因,我們每個人,我們知道我們有DNA從爸爸媽媽那邊繼承下來的遺傳的物質(zhì)。DNA實際上決定我們生活方方面面,它本身是有一個自定式的序列,它有四種所謂的(堿基序列)。和計算機(jī)相比,只不過計算機(jī)是以0101做標(biāo)志的,我們的生物是通過ATCG的四進(jìn)制進(jìn)行標(biāo)志。這個東西是非常好的數(shù)據(jù)載體,目前也有一些公司專門DNA做存儲的介質(zhì)。

  在這樣的情況下我們來想一想生命是怎么來運(yùn)作的?實際上一定程度上可以把生命視作自載的程序。每個人DNA我剛才講過它本質(zhì)是數(shù)據(jù)的序列。我們每個人自己的基因或者基因的序列,它實際上是每個人自己的這樣的程序。這樣的一個程序剛才我們在這個圖里它叫所謂的生命的方程。在左邊實際上生命的分子生物學(xué)的,就是底層的一些數(shù)據(jù)。中間在環(huán)境的影響之下,最后就會得到這樣的所謂在外層的,我們可見的這樣的一個表形數(shù)據(jù)。

  在左邊這個分子生物學(xué)數(shù)據(jù)里,最主要的是什么東西呢?最主要的就是我們剛才談到的基因?;蛟诃h(huán)境的作用里,就像一個程序在運(yùn)行環(huán)境或者在一個運(yùn)行的參數(shù)的條件之下,它們最后會形成這樣一個表形的結(jié)果。什么叫表形?表形就是各種各樣的東西,比如像、身高、膚色,等等外在的我們能看到的每個人生命的描述。

  這樣大家就理解,為什么在同樣的環(huán)境下,不同的人會有這樣不同的形狀,在大家都抽煙,有的人會的肺癌,有的人不會。實際上人與人之間的程序,就是我們剛才談到的基因和基因相關(guān)的分子的數(shù)據(jù)是不一樣的。反過來講的話,這個程序可以有不同的參數(shù),即使是雙胞胎他的程序非常相似的情況下,他在不同的環(huán)境里,他仍然會運(yùn)行出來不同的結(jié)果。我們這樣來理解我們的生命的話,就可以把生命整個看成是一個信息的系統(tǒng)來觀察。

  我們通常講大數(shù)據(jù)的時候,我們剛才談了很多很多方面,在對人的描述的時候怎么討論,我們?nèi)绾伟讶说纳蜕倪^程,整體上來講的話用數(shù)據(jù)來進(jìn)行描述。一位科學(xué)家提出模型,這個模型是有很多的不同的模型的。但是我覺得這個還比較清晰,我們來看一看。如果一個人我們要描述,就是剛才整個人的個體。從最左邊開始的話,首先暴露的在什么樣的環(huán)境里。中間他有各種各樣分子的數(shù)據(jù),剛才我們講到的基因組,蛋白質(zhì),代謝,還有其他的身上的所有的微生物的菌群等等這樣的分子生物的一些數(shù)據(jù)。在右邊實際上就是有影像或者生物感應(yīng)器的,這個是在醫(yī)學(xué)或者病例里出現(xiàn)的。

  還有生活數(shù)據(jù)。剛才我們在談的,我們目前談到的絕大部分的大數(shù)據(jù)的時候,主要談的實際上是右邊的這三個:就是數(shù)字化的生活,就是剛才我們進(jìn)行移動互聯(lián)網(wǎng)的整個數(shù)據(jù)匯報的時候,主要談的是數(shù)字化的生活。我們在現(xiàn)代的移動醫(yī)療里主要談到的實際是最右邊的另外兩個,一個是感應(yīng)器以及影像學(xué)數(shù)據(jù)。整個人內(nèi)部的各個層次的數(shù)據(jù),實際上現(xiàn)在反而是沒有真正的去量化或者解讀的,這個也是目前我們對于人類了解的一個很大的問題。但是這個問題正在被解決,這是一個調(diào)查,就是整個測量人的全部基因,他的成本曲線的變化。

  這個變化可以看到,在開始的時候,這是上十億的數(shù)量級。在2012年的時候已經(jīng)降到了1萬美金以下,這是多少倍的變化呢?在今天的時候,大概在1千美金這樣的一個數(shù)量級左右。我們可以看一下整個曲線,這是一個對數(shù)曲線,它實際上比我們通常談到的IT行業(yè)的摩爾定律實際上是更快的。實際上現(xiàn)在我們在IT之后,就是所謂的生物技術(shù)BT,它是更快的速度在追趕IT的前進(jìn)的步伐。這樣的一個行業(yè),它又恰恰填充到了我們剛才談到的對人描述的數(shù)據(jù),這個時候在未來它對我們產(chǎn)生了很多很多的想象。如果未來我們這樣生物數(shù)據(jù)的采集,這個成本極低的時候,它會發(fā)生一個什么樣的行業(yè)的變現(xiàn)?

  我們現(xiàn)在講,剛才講DT PLUS,我們在未來會不會存在某種情況下會存在類似于基因PLUS這樣的一個行業(yè)呢?我們整個的人的,從剛才談到的社會生活的數(shù)據(jù),醫(yī)療影像的數(shù)據(jù),以及我們身體內(nèi)部的運(yùn)行的實際的生理的分子的數(shù)據(jù),以及環(huán)境的數(shù)據(jù),在一起的時候,它會對我們的生活產(chǎn)生什么樣的價值?我待會兒再來談這個問題。

  另外一個,大家可以理解,就是我們談生命的大數(shù)據(jù)的時候,我們每一個人自己實際上就是一個大數(shù)據(jù)的信息的載體。我們現(xiàn)在仍有很多的問題,我剛才談的,為什么我們現(xiàn)在仍然沒有把生命的很多的問題搞清楚?很大程度上就是因為生命,我們每一個人的數(shù)據(jù)非常的大。我們現(xiàn)在有這么多人,全國有13億人口,世界有70億人,這樣的數(shù)據(jù)情況下,我們要想把人類本身進(jìn)行一個完整的數(shù)學(xué)建模,這個是非常非常困難的問題,而且傳統(tǒng)意義上來講,一方面生物學(xué)家本身也不是通過數(shù)學(xué)建模的方式來進(jìn)行這樣的研究。

  反過來,就是我們現(xiàn)在的整個的數(shù)據(jù)的科學(xué),以及這樣的架構(gòu)體系,它本身還沒有涉足生物的領(lǐng)域。因為我剛才談了,它是摩爾定律的快速的發(fā)展,但是大家還沒有感受到這樣的東西。在這樣的基礎(chǔ)之上,我們認(rèn)為在現(xiàn)在我們實際上人工智能本身,包括數(shù)據(jù)和人工智能本身,還有非常非常重要的應(yīng)用,這個應(yīng)用就是專門用來分析人類的生命的大數(shù)據(jù)。在這樣的基礎(chǔ)之上,剛才各種各樣的支撐,在生命科學(xué)就有可能得到使用,在這樣一個基礎(chǔ)上,它就有可能開啟剛才我們談到的這樣的一個對于人類的有完整的數(shù)據(jù)的描述以及這樣的結(jié)果。

  在這樣的基礎(chǔ)上我們?yōu)槭裁醋鲞@樣的事情?大家知道今天人類的健康管理,實際上是很有歷史的健康管理,我們總是在人類已經(jīng)發(fā)生,我們個體發(fā)生生病的時候,我們再去醫(yī)院進(jìn)行相關(guān)的檢修。但是事實上,我們在座的不管對任何一個機(jī)器,對汽車我們都知道,是要進(jìn)行保養(yǎng),對任何我們玩兒的東西都要進(jìn)行保養(yǎng),但是我們對人類本身沒有保養(yǎng)的概念。為什么沒有這個概念呢?因為我們不知道他應(yīng)該怎么去保養(yǎng)。我們現(xiàn)在把人類進(jìn)行全部的數(shù)據(jù)化的描述,以及相關(guān)的建模,我們的目標(biāo)是什么?我們的目標(biāo)實際上就是要構(gòu)造一個有可能對人類的整個的生命的進(jìn)程發(fā)生狀態(tài)描述和預(yù)測的這樣的一個系統(tǒng)。

  這個系統(tǒng)我們可以理解,就是他很像一個我們平時算命的所謂的水晶球。我們需要知道自己現(xiàn)在身體的狀態(tài)是什么樣的,未來會走向什么樣。還有未來如果走向不好的結(jié)果的時候,到現(xiàn)在我們可以采取什么樣的措施去進(jìn)行干預(yù),讓整個系統(tǒng)按照我們想象的方式來進(jìn)行運(yùn)行,來走向未來。這個就是我們生命大數(shù)據(jù)和人工智能要研究的核心問題,就是對人的狀態(tài)。大家記得衰老不是一天發(fā)生的,它是一個連續(xù)的過程。疾病也不是一天發(fā)生的,它也是一個連續(xù)的過程。因此我們現(xiàn)在做的事情,就是我們要在疾病之前,在未病的時候能夠?qū)@個趨勢進(jìn)行掌握,用我們的模型來進(jìn)行干預(yù)和預(yù)測。這就是我們整個要研究的一個問題。

  一般在自然環(huán)境下,哺乳類的自然生命,我覺得人在120到150歲都是合理的預(yù)測,為什么現(xiàn)在達(dá)不到這個預(yù)測呢?有幾個問題:第一,本身這個程序存在Bug。另外,我們在趨勢預(yù)測里,我們生活運(yùn)行的過程里,我們的參數(shù)給錯了,或者整個運(yùn)行的環(huán)境不適合,這個時候我們是不是也有可能會導(dǎo)致提前出現(xiàn)了問題?

  還有,我們整個運(yùn)行的方法也出現(xiàn)了問題。這里有很多處理的方式,比如最常見的,就是我們本身基因上有比較大的問題,我們叫做遺傳上的缺陷。遺傳上自缺陷現(xiàn)在我們已經(jīng)有些辦法,可以對基因進(jìn)行編輯。如果大家最近看生物相關(guān)的熱點(diǎn)的話,你可以知道,現(xiàn)在我們的科學(xué)家已經(jīng)可以對基因進(jìn)行編輯,而且最近的情況,在去年的時候?qū)σ粋€英國的小女孩兒進(jìn)行了基因編輯以后,他修改了她白血病的基因,讓她重新變成了一個正常的血液的細(xì)胞。這個是現(xiàn)在的技術(shù)的力量,我們可以從底層來修改我們的程序的代碼。

  另外,對整個運(yùn)行的趨勢進(jìn)行預(yù)測和干預(yù)。這是其中的一個例子,也是剛才談到的十層數(shù)據(jù)里的一層。這個一層是我們腸道里微生物的菌群。微生物的菌群的總體總量也不大,大概是1-2公斤,但是基因的數(shù)量,它有三萬個以上。我們?nèi)祟惔蟾庞卸嗌倌兀课覀內(nèi)祟愑胁坏饺f個基因。這樣的一個系統(tǒng)跟我們有關(guān)系,比如跟我們的糖尿病、心血管,甚至和神經(jīng)所有的,現(xiàn)在所講的生活習(xí)慣造成的慢性病都有關(guān)系。一方面來講,這個菌群可以作為預(yù)測系統(tǒng),另外它在我們的體外,它也可以成為未來我們干預(yù)慢性病,包括三高等的落腳點(diǎn)。

  還有我們這個行業(yè)討論的一些問題叫精準(zhǔn)醫(yī)學(xué)。什么叫做精準(zhǔn)醫(yī)學(xué)?過往的所有的治療或者干預(yù)的方案,它是對癥的,就是你有這個癥狀我給你這樣的醫(yī)療。剛才談到人和人的程序代碼本身是不一樣的,他運(yùn)行的狀態(tài)也是不一樣的。在這個系統(tǒng)我們要對這個系統(tǒng)干預(yù)的時候,要調(diào)成健康的狀態(tài),它有不同的處理方式。這個不同的處理方式就是對個人的,個體的,精準(zhǔn)的處理。比如說我們每個人的孕婦都知道要吃葉酸。實際上在中國有三分之一的孕婦吃廣義的葉酸是沒有用處的。因為我們?nèi)种坏娜藳]有辦法把藥品的葉酸代謝成為生物里面的活性的葉酸。如果我們掌握這樣的一個事情的時候,我們就馬上知道,你現(xiàn)在要吃另外一種活性的葉酸,它才有可能達(dá)到預(yù)防胎兒畸形的問題。這個就是我們對整個預(yù)測的想法。

  我們重新來想這樣的問題,什么是生命?不同的人肯定有不同的回答,但是今天的趨勢上,希望看到生命實際上是一種多維度的信息的系統(tǒng)。我們希望了解這個信息系統(tǒng)它運(yùn)作的規(guī)律,從而去干預(yù)這樣的運(yùn)作規(guī)律,而這個里面最重要的一點(diǎn),就是我們視它為一個大數(shù)據(jù)的體系,我們希望能夠有數(shù)據(jù)科學(xué)和人工智能等參與,把這個問題最終解決。謝謝大家。

大數(shù)據(jù) 詳細(xì)

漲幅榜 更多

排名 股票名稱 最新價 漲跌幅
1 紫光股份 80.14 10.01%
2 東軟集團(tuán) 15.94 10.01%
3 賽為智能 18.52 9.98%
4 航天信息 27.13 7.28%
5 天源迪科 17.00 6.25%

跌幅榜 更多

排名 股票名稱 最新價 漲跌幅
1 天夏智慧 12.58 -5.77%
2 上海鋼聯(lián) 74.30 -3.19%
3 美的集團(tuán) 52.84 -3.10%
4 南威軟件 12.10 -2.97%
5 奧飛數(shù)據(jù) 75.28 -2.87%

熱圖一覽

  • 股票名稱 最新價 漲跌幅