/  EN

    首頁 >> 行業動態 >> 基因+人工智能,精準醫療往何處?

    基因+人工智能,精準醫療往何處?

    瀏覽次數: 日期:2015年8月10日 08:54

    最近基因產業有點兒火。上月17日,華大基因宣布組建以人工智能為核心的新業務機構,引起業界一片猜測;接著7月29日央視全面聚焦精準醫療,大篇幅介紹了基因檢測,一下子連街頭的大爺大媽們都嘮起了基因。然而就在這期間,加拿大一家叫Deep Genomics的公司悄然成立了,并迅速占領了國外各大媒體的頭條(國內卻鮮有報道)。

     

    那么這家公司究竟在做什么?又有哪些過人之處?讓我們先看看國外的媒體評價。加拿大的《環球郵報》表示“這家多倫多創業公司意圖撼動基因測序市場”;而美國《華盛頓郵報》則評價說“Deep Genomics,一家將深度學習的能量帶到基因組學的創業公司”;Gizmag稱“Deep Genomics意欲借助深度學習改革基因醫療”;《連線》之前的報道稱“機器智能破譯遺傳控制”;《科學美國人》說得很玄乎,“我們DNA的某些角落暗藏疾病線索–深度學習之光照亮基因突變鮮為人知的角落”。

     

    總結下來,Deep Genomics就是人工智能和基因組學聯姻的產物,即“Deep Learning + Genomics”。在用深度學習研究基因組學的時代,Deep Genomics推開了第一扇窗。

     

    也許你心中有個大大的疑問,基因檢測都做了這么長時間了,很多疾病都可以檢測了,基因組學為什么需要深度學習技術?這里舉個例子,某市突然停電了,為了搞清楚為什么停電,有兩種辦法:第一種是把所有電線全都排查一遍,然后找到損壞的地點;第二是選那些平時就很容易損壞的地點去排查。如果我們對100個不同城市的斷電原因做統計分析,不難發現有些原因出現的頻率高,有些原因出現的頻率低。

     

    我們人體也一樣,人群中的DNA突變(SNVs)總數大概數以億計,其中突變頻率大于1%的叫做SNPs,SNPs大概有300萬個。要研究疾病與SNPs之間的關系,需要巨大的患者樣本量,統計出患者群體與正常人群體SNPs之間的差異。對于突變頻率小于1%的SNVs,雖然群體數量龐大,但是單個并沒有統計學意義,所以在疾病的分析中被自動屏蔽掉了。從數量上我們不難看出,基因檢測如果缺少對突變頻率小于1%的SNVs的深入分析,精準醫療只能被限制在狹小的范圍之內。

     

    目前我國衛計委批準用于臨床檢測的項目包括:遺傳病診斷、產前篩查與診斷、植入前胚胎遺傳學診斷和腫瘤診斷與治療。這四類項目它們的共同特點是:疾病僅與一個或者幾個易感基因相關。實際上,除了單基因遺傳病之外,其他疾病的易感基因多少,取決于對該疾病的研究程度。比如,目前對乳腺癌的基因檢測主要集中在BRCA1和BRCA2基因,目前在這兩個基因里已經發現了大量的變異,可是我們卻對這些變異對乳腺癌的影響缺乏深入的認識。更何況隨著對乳腺癌樣本研究的深入,已經發現了40個跟乳腺癌相關的基因(當然,每個基因里都可能有多個SNVs)。因此,僅從基因檢測的角度來講,想要達到精準醫療,還為時尚早。

     

    Deep Genomics的創始人,加拿大多倫多大學的Frey教授很早就專注于該領域的研究。他們的學術團隊先后在國際頂尖期刊《Science》、《Nature Biotechnology》和《Bioinformatics》刊登了該領域的研究成果,希望利用深度機器學習技術改造精準醫療,基因檢測、診斷和治療的發展。

     

    接下來就講講Deep Genomics是如何分析突變頻率小于1%的SNVs與疾病之間的關系。當然,要說清楚Deep Genomics的解決辦法,我們還需要繼續科普。對于沒有生物背景、且剛剛了解一點基因知識的同學來說,一談起疾病就會想到基因,但實際上從基因到疾病還有好幾步。鍋沒有做好,有可能是設計圖紙出了問題,也可能是模具出了問題。

     

    假設我們要做一個機器人,我們要先繪制圖紙和材料切割圖(DNA),然后根據圖紙和材料切割圖制作模具(RNA),再根據模具制作各種原件(蛋白質),最終這些元件組成有功能的機器人。我們的生命活動也是這樣一級級實現的,生命信息從承載基因的DNA,傳遞到RNA,再傳遞到有生物活性的蛋白質,最終由蛋白質實現所有生命活動。

     

    在制作機器人的過程中,錯誤可能出現在圖紙(基因)上,也可能出現在材料切割圖上。兩種錯誤都可能導致機器人功能異?!,F在的基因檢測,分析了基因中出現頻率高的變異對疾病的影響,而嚴重忽視了基因剪切變異對疾病的影響。原因無外乎控制基因剪切變異的出現頻率低,沒有統計學意義。但是它們的數量卻是巨大的–數以億計。Deep Genomics目前提供3.28億個SNVs如何影響RNA(制作模具的材料)剪切的預測。那Deep Genomics是如何做到的呢?

     

    根據目前基因檢測的思路,是很難對這些SNVs進行分析的。因此,Deep Genomics引入了深入學習的人工智能技術。首先Frey團隊建立了一個數學模型,然后輸入健康人的全基因組序列和RNA序列,對模型進行訓練,使模型學到健康人的RNA剪切模式;接下來,通過其他分子生物學方法對訓練后的模型進行確認和校正;最后使用幾個目前已知的病例數據,檢驗模型判斷的準確性。在這一思路的指導下,Deep Genomics推出了他們的第一款產品SPIDEX。只需將測序結果和細胞類型導入,SPIDEX便可分析出某一變異對RNA剪切的影響,并計算出該變異與疾病之間的關系。

     

    如果Deep Genomics的深度學習分析變得足夠精確,那么這項技術的貢獻顯而易見:直接分析突變頻率低的變異與疾病的關系;加速基因組學的研究和藥物的開發。同時我們要清醒地認識到,目前Deep Genomics的SPIDEX技術只能分析SNVs引起的RNA剪切變異與疾病的關系,對于其他原因導致的疾病也無能為力。但即便如此,人工智能在基因分析中的應用仍然值得期待,也許它會成為解碼基因與疾病奧秘的一把金鑰匙。

    所屬類別: 行業動態

    該資訊的關鍵詞為: