《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 阿里云開源首個統一生物語言大模型LucaOne

阿里云開源首個統一生物語言大模型LucaOne

2024-05-30
來源:量子位

把 169861 個生物物種數據裝進大模型,大模型竟 get 到了生物中心法則的奧秘——

不僅能識別 DNA、RNA 與相應蛋白質之間的內在聯系,在基因分類、蛋白質相互作用預測、熱穩定性預測等 7 種不同類型任務中也能比肩 SOTA 模型。

模型名為LucaOne,由阿里云飛天實驗室生物智能計算團隊打造。

相比 AlphaFold 3 因未開源遭到 650 多名學者聯名批評,LucaOne 訓練推理代碼及相關數據目前均已開源。

1.jpg

LucaOne 是目前首個全生物系統的核酸語言 + 蛋白語言的融合基座模型。換句話說,LucaOne 由核酸(DNA、RNA)和蛋白質序列聯合訓練而來。

通過一系列實驗,研究人員發現它能廣泛適用各種下游任務。

在含 13 個物種、關系對總數量為 24000 的核酸序列和其對應蛋白的正負樣本數據集中,LucaOne 提供表征的模型達到 0.85 的預測準確率。

遠高于目前業內最好的預訓練模型組合 ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于 LucaOne 的單核酸訓練版本 + 單蛋白訓練版本。

其他任務如針對流感 H3N2 病毒疫苗有效性(免疫逃逸風險)的預測,LucaOne準確率可達 100%。

2.jpg

量子位也聯系到了論文一作,聊了聊 LucaOne 的實現細節,以及 AI for Science 在生物科學領域的發展。

3.jpg

核酸和蛋白質序列聯合訓練

總的來說,LucaOne 圍繞中心法則的數據進行構建,能夠學習到中心法則背后的原理和邏輯,可提取基因轉錄和蛋白質翻譯過程中固有的復雜模式和關系,在使用層面相當于提供了一個對 DNA、 RNA、蛋白質的無差別表征。

PS:

分子生物學的中心法則即遺傳信息從 DNA 傳遞給 RNA,再從 RNA 傳遞給蛋白質的過程,這一過程包括 DNA 的復制、RNA 的轉錄和蛋白質的翻譯。

4.jpg

展開來看,LucaOne 整個工作流是這樣嬸兒的:

5.jpg

從技術上講,構建 LucaOne 的難點首先是數據集的構建。

在生命科學領域,真實存在的只是分子數據。

例如,核酸的表示方式是 4 種堿基。DNA 是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T);RNA 是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)。蛋白質由氨基酸組成,自然界存在的氨基酸大約有 20-22 種,每種氨基酸也用一個字母表示。

而人類為理解這些分子的性質與作用,通常需要添加很多注釋信息,包括一些圖片的注釋。注釋信息屬于人類語言,自然界本身不存在,從而就形成了一種生命科學領域的從 " 自然界 " 語言到 " 人類文化 " 語言的跨模態。

因此,LucaOne 的預訓練數據不僅包含 DNA、RNA、蛋白質這三類分子的序列(核苷酸序列或者氨基酸序列)數據,同時還使用了這些分子的注釋信息。

總共涵蓋了 169861 個物種的核酸和蛋白質序列和注釋信息,分為兩部分:

核酸數據集來自 RefSeq,包括核酸序列及注釋;蛋白質數據集來自 InterPro、UniProt、ColabFold、RCSB-PDB、AlphaFold2,包括蛋白質序列、注釋和三維結構。

6.jpg

據介紹,在數據集的收集處理方面,阿里云飛天實驗室與中山大學、浙江大學等多個團隊進行了合作。

另一大難點是生物分子序列的預測和大語言模型預測下一個 token 不同,在模型訓練階段還需要一些專門的設計。

LucaOne 采用了Transformer-Encoder架構,由 20 個編碼器塊組成,嵌入維度為 2560,總參數量1.8B。

研究人員在此基礎上進行了一些優化:

使用 Pre-Layer 歸一化代替 Post-Layer 歸一化,以便更好地訓練深層網絡;使用旋轉位置嵌入(RoPE)代替傳統絕對位置編碼,以推理更長序列。

此外,在數據處理和模型訓練過程中,核苷酸和氨基酸用統一的方式進行表征或編碼。通過 token-type embeddings 實現核酸和蛋白質序列的混合訓練,區分核苷酸(0)和氨基酸(1)。

在兩個自監督掩碼任務的基礎上,研究人員還增加了八個半監督預訓練任務,通過序列注釋增強模型對數據的理解。

7.jpg


已能理解基因和蛋白對應關系

為驗證核酸和蛋白質數據混合訓練的優勢,研究人員分別使用核酸和蛋白質數據單獨訓練了兩個額外的模型—— LucaOne-Gene 和 LucaOne-Prot,并使用相同的 5.6M checkpoint 在分子生物學中心法則任務中進行了比較。

使用 t-SNE 可視化說明,與其他模型相比,LucaOne 的嵌入在兩個數據集上呈現出更緊密的聚類,可能包含了更多上下文信息。

8.jpg

為驗證 LucaOne 通過廣泛學習基因及蛋白語言,已具備對生物學中心法則里的基因和蛋白對應關系的理解能力,研究人員設計了一個數據集及評測任務。

選取 13 個物種的核酸序列和其對應蛋白的正負樣本數據集,關系對總數量為 24000,其中正負樣本比例 1:2?;蛐蛄袛祿瞧湓诨蚪M的原始數據,包括了大量的非編碼區(內含子,調控元件,及 " 垃圾片段 " 等)。

采用訓練:驗證:測試比例為:4:3:25;即僅 3200 組數據作為訓練,18750 組數據作為測試集來預測其核酸序列是否可以翻譯成數據組里的蛋白序列。

結果 LucaOne 提供表征的模型達到0.85的預測準確率,不僅遠高于目前業內最好的預訓練模型組合 ESM-3B+DNAbert2(0.73)及其他建模方式,也明顯高于 LucaOne 的單核酸訓練版本 + 單蛋白訓練版本。

這表明這兩種大分子數據聯合訓練可以顯著增強模型的學習效果。

9.jpg

有意思的是,研究人員發現在模型細分表現里,LucaOne海鞘這種生物里的預測表現比較差(其他模型也類似),進一步分析海鞘的特性表明,因為進化適應性等各種原因,海鞘利用中心法則的具體規則 - 密碼子偏好性,和其他生物明顯不同。

他們猜測 LucaOne 可能用的是另一種中心法則語法" 方言 ",而這種 " 方言 " 在訓練數據集里僅有 100 條,因此模型沒有很好的學習到這種規則。

在其他下游任務中,LucaOne 對不同類型輸入的下游任務也廣泛適用。

具體來說,研究人員評估了 7 個不同類型的下游生物計算任務,包括 :

單序列任務:GenusTax(屬分類)、ncRNAFam(ncRNA 家族分類)、ProtLoc(蛋白質亞細胞定位)、ProtStab(蛋白質熱穩定性預測)。同源序列對任務:InfA(流感血凝素分析)、PPI(蛋白質相互作用預測)。異源序列對任務:ncRPI(ncRNA- 蛋白質相互作用預測)。

為簡化下游任務,研究人員使用了三種對應不同輸入形式的簡單網絡架構:

10.jpg

結果表明,GenusTax、ProtStab、ncRNAFam、InfA、PPI 任務上,LucaOne 顯著優于其他模型;ProtLoc 任務上,LucaOne 與 ESM2-3B 相當,優于 SOTA;ncRPI 任務上,LucaOne 優于 DNABert2+ESM2-3B 的組合:

11.jpg

值得一提的是,在流感 H3N2 病毒的免疫逃逸風險預測中,研究人員采用了 1968 年至 2010 年間分離的大規模 H3N2 病毒 HA 序列數據進行了基于流感毒株抗原關系的預測模型。

通過病毒 HA 抗原序列來預測其是否會誘導 HIA 實驗的血凝現象,進而預測其是否在特定人群中會發生免疫逃逸。

12.jpg

要知道,目前預防與控制流感最有效的方法是接種流感疫苗,但是由于流感病毒極快的變異速度,導致不能及時與準確地推薦與流行病毒相匹配的流感疫苗株。根據 WHO 和 CDC 的監測,流感疫苗的有效性在 40%-60% 之間。因此準確預測流行毒株,判斷免疫逃逸風險是一個重要且困難的命題。

研究人員使用基于 LucaOne+ 一層感知機的模型達到了 100% 的準確率。

這也說明 LucaOne 學習的大量核酸序列信息,包括大量其他病毒序列,為計算特定任務提供了很好的信息補充。

更多細節,感興趣的家人們可查看原論文。

"Science for AI"

如前文所述,LucaOne 背后開發團隊來自阿里云飛天實驗室 LucaTeam,LucaTeam 也與多個團隊展開了深度合作。

中山大學醫學院施莽教授及其團隊參與了 LucaOne 模型的數據設計與驗證。施莽教授認為:

LucaOne 是一項極為重要的嘗試。最讓我驚訝的是,在沒有任何先驗知識的前提下,LucaOne 確實能夠更有效地學習中心法則中核酸與蛋白質之間的對應關系。

中國醫學科學院北京協和醫學院病原生物學研究所所長、美國微生物科學院會士舒躍龍教授及其團隊參與了 LucaOne 在流感病毒方面的分析與驗證工作。舒躍龍教授表示:

將前沿的 AI 技術與病原生物學相結合具有重大的科學意義和社會價值。通過這種緊密的跨學科協作,我們能探索更多病原生物起源進化、跨種傳播以及感染致病等方面的規律,為傳染病防控和生物安全做出更大的貢獻。

此外,論文一作賀勇是阿里云飛天實驗室生物計算高級算法專家,我們也就 LucaOne 與其展開聊了聊 AI for Science 在生物科學領域的發展。

在他看來,AI for Science 在生物科學領域正處于剛起步的階段,考慮到 AI 可解釋性的問題,基本上現在他們還只是把 AI 當做一個工具,但同時現在是發展 AI for Science 的一個很好的時間節點。

因為現在測序技術發展非常迅速,測序成本下降很多,分子序列數據很容易就能獲得。有了數據大量的積累,就可以數據驅動的 AI for Science 相關工作。

不過,目前的局限在于測序得到還是分子的序列數據,而真實世界每個分子的存在是一個空間結構,這可能就需要更復雜的模型來處理。

而不同學科間的研究方法不同、探索微觀世界也受限于目前的設備技術,賀勇認為人類對生物科學這個領域的認識目前也只是冰山一角,還無法從全局角度構建一個全面通用的系統。

最后他還補充道:

目前大家對 AI for Science 越來越重視,相當于用 AI 去解決具體的問題。我想接下來還應該回過頭來看 Science 能為 AI 帶來什么?解決具體問題是第一步,最后通過問題反哺技術本身其實可能也是應該考慮的。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          国产亚洲一区二区三区在线观看| 亚洲动漫精品| 韩日精品中文字幕| 欧美劲爆第一页| 国产精品成人免费视频| 日韩视频久久| 亚洲一区二区黄色| 日韩视频在线观看一区二区| 国产视频一区在线观看一区免费| 伊人成年综合电影网| 99国产麻豆精品| 香蕉国产精品偷在线观看不卡| 国产欧美一区二区三区另类精品| 亚洲欧美日韩一区二区三区在线观看| 在线视频成人| 亚洲一区在线观看免费观看电影高清| 欧美中文字幕不卡| 美女视频黄免费的久久| 国产精品国产馆在线真实露脸| 中文精品在线| 亚洲午夜激情网站| 91久久精品日日躁夜夜躁欧美| 久久久久国产一区二区三区四区| 国产综合网站| 久久夜色精品国产噜噜av| 在线免费观看欧美| 欧美女同在线视频| 99精品视频一区二区三区| 欧美日韩国产首页在线观看| 99re8这里有精品热视频免费| 亚洲福利视频专区| 欧美精品久久久久久| 国产欧美亚洲一区| 日韩午夜一区| 性娇小13――14欧美| 在线观看91久久久久久| 欧美大成色www永久网站婷| 日韩午夜在线视频| 中文日韩电影网站| 国产精品成人aaaaa网站| 亚洲精品日韩一| 国产日韩一区在线| 国产精品久久久| 亚洲高清久久久| 一区二区三区在线免费播放| 久久久99免费视频| 亚洲国产精品成人va在线观看| 亚洲综合三区| 国产伦精品一区二区三区视频黑人| 欧美一区二区三区另类| 亚洲欧美日韩一区在线观看| 激情久久久久久久| 国产一区二区无遮挡| 欧美精品激情在线观看| 国产一级精品aaaaa看| 亚洲人线精品午夜| 欧美精品一区二区蜜臀亚洲| 欧美精品一二三| 欧美成人免费在线视频| 亚洲国产精品国自产拍av秋霞| 亚洲欧美成人一区二区三区| 久久久女女女女999久久| 欧美视频四区| 日韩视频不卡中文| 亚洲电影第1页| 亚洲第一页中文字幕| 亚洲人久久久| 亚洲午夜女主播在线直播| 很黄很黄激情成人| 国产精品久久久久aaaa| 激情六月婷婷综合| 一区二区三区四区在线| 欧美一区二区三区啪啪| 欧美大片一区二区三区| 欧美午夜精品久久久久免费视| 国产精品久久网站| 国产欧美精品日韩| 欧美高清在线一区| 欧美劲爆第一页| 亚洲女人小视频在线观看| 一区二区激情视频| 欧美日韩综合网| 欧美日韩一区二区三区在线观看免| 欧美国产91| 久久精品一级爱片| 91久久一区二区| 国产精品99久久99久久久二8| 久久综合色8888| 制服丝袜激情欧洲亚洲| 亚洲欧美日韩国产| 欧美一区二区三区电影在线观看| 国产欧美日韩一级| 国产精品美女主播在线观看纯欲| 亚洲无亚洲人成网站77777| 91久久一区二区| 美女网站在线免费欧美精品| 欧美视频一二三区| 伊人春色精品| 国产欧美精品一区| 欧美午夜视频在线观看| 性欧美长视频| 91久久精品视频| 国产精品极品美女粉嫩高清在线| 亚洲国产精品999| 亚洲精品在线视频| 国产欧美亚洲视频| 国产亚洲精品bv在线观看| 国产欧美日韩中文字幕在线| 欧美丝袜一区二区三区| 国产精品一区视频网站| 亚洲午夜电影| 久久精品成人一区二区三区| 99国产一区二区三精品乱码| 欧美大片一区二区| 免费欧美日韩国产三级电影| 欧美日韩另类丝袜其他| 久久视频在线看| 国产一区欧美| 亚洲精品午夜| 久久精品亚洲精品国产欧美kt∨| 欧美精品一区二| 亚洲一区二区在线免费观看视频| 亚洲精品久久7777| 久久久久久**毛片大全| 欧美高清成人| 欧美精品一区三区在线观看| 亚洲欧美激情在线视频| 久久免费少妇高潮久久精品99| 美国十次成人| 亚洲欧美在线网| 欧美精品色综合| 欧美国产在线视频| 国产精品一区在线观看| 一区二区三区视频在线观看| 欧美午夜片欧美片在线观看| 欧美人成在线视频| 欧美在线不卡视频| 欧美黄色一级视频| 一区在线视频| 国产精品一区二区你懂得| 国产乱子伦一区二区三区国色天香| 亚洲最快最全在线视频| 国产精品久久久91| 欧美视频专区一二在线观看| 亚洲一区二区三区四区中文| 欧美一区二区免费| 亚洲精品乱码久久久久久| 亚洲国产影院| 亚洲欧美日韩天堂| 午夜激情一区| 国产亚洲观看| 国产精品一区二区久久| 国产精品久久二区二区| 亚洲区一区二区三区| 国产欧美日本在线| 国产精品久久一区二区三区| 亚洲国产精品嫩草影院| 国内精品**久久毛片app| 艳妇臀荡乳欲伦亚洲一区| 一本色道久久88精品综合| 亚洲国产高清在线观看视频| 亚洲国产高清高潮精品美女| 国产欧美激情| 国产精品成人一区二区网站软件| 久久久综合网站| 亚洲激情亚洲| 欧美日韩视频一区二区| 精品999成人| 正在播放亚洲| 国产专区精品视频| 久久最新视频| 亚洲一二三区精品| 亚洲欧美久久久久一区二区三区| 亚洲在线成人精品| 毛片基地黄久久久久久天堂| 亚洲一区在线观看免费观看电影高清| 国产精品久久一区主播| 欧美精品一区二区精品网| 久久久久久久久久码影片| 久久精品电影| 欧美中文字幕不卡| 国产乱码精品一区二区三| 国产精品免费一区二区三区在线观看| 狠狠做深爱婷婷久久综合一区| 一区二区三区偷拍| 亚洲另类在线视频| 欧美福利一区| 欧美福利在线| 日韩天堂av| 久久精品国产在热久久| 亚洲尤物在线| 亚洲欧美综合网| 亚洲国产aⅴ天堂久久| 女主播福利一区| 在线精品亚洲一区二区| 欧美极品aⅴ影院| 国产精品v片在线观看不卡| 欧美精品久久99久久在免费线| 国产精品久久久久久久久久三级| 久久久噜噜噜久久中文字幕色伊伊| 一本色道久久综合狠狠躁篇的优点| 狂野欧美激情性xxxx| 麻豆freexxxx性91精品| 久久亚洲春色中文字幕| 最近中文字幕mv在线一区二区三区四区| 欧美激情1区2区3区| 欧美日韩国产色综合一二三四| 欧美一级视频精品观看| 国产亚洲精品高潮| 欧美一区午夜视频在线观看| 最新国产精品拍自在线播放| aa级大片欧美| 91久久国产综合久久91精品网站| 精品不卡一区| 久久精品国产亚洲a| 亚洲精品在线观看视频| 国产精品美女黄网| 亚洲动漫精品| 欧美精品一区二区在线观看| 欧美精品videossex性护士| 欧美另类69精品久久久久9999| 国产日韩在线一区| 欧美成人在线影院| 亚洲精品一区二区三区在线观看| 国产欧美一区二区三区国产幕精品| 欧美日韩国产精品成人| 亚洲欧美综合精品久久成人| 亚洲一区二区伦理| 亚洲看片一区| 欧美日韩视频在线一区二区观看视频| 亚洲专区一区| 亚洲一区二区三区高清| 国产精品福利网| 欧美色中文字幕| 亚洲精品一区二区三区蜜桃久| 亚洲精品久久久久久久久久久| 一本色道88久久加勒比精品| 国产老女人精品毛片久久| 久久综合婷婷| 亚洲欧美激情诱惑| 亚洲日本欧美天堂| 国产模特精品视频久久久久| 国产亚洲视频在线观看| 久久五月天婷婷| 亚洲影院免费| 欧美专区在线| 欧美一区二区三区在线观看视频| 久久躁日日躁aaaaxxxx| 国产综合色产在线精品| 国产精品自拍三区| 樱桃国产成人精品视频| 在线观看欧美激情| 欧美日韩一区二区免费视频| 久久久精品视频成人| 欧美与欧洲交xxxx免费观看| 欧美一级淫片aaaaaaa视频| 欧美日韩一级大片网址| 亚洲肉体裸体xxxx137| 欧美专区第一页| 国产日韩亚洲欧美| 韩国一区二区三区美女美女秀| 午夜在线视频观看日韩17c| 国内精品模特av私拍在线观看| 欧美日韩一区二区在线播放| 欧美一级在线播放| 六十路精品视频| 亚洲七七久久综合桃花剧情介绍| 蜜臀av性久久久久蜜臀aⅴ四虎| 久久久久久黄| 美女999久久久精品视频| 欧美怡红院视频| 久久在线免费观看视频| 狂野欧美激情性xxxx欧美| 国产一区二区三区四区三区四| 亚洲一区二区成人| 国产精品日韩精品欧美在线| 欧美激情精品久久久久久变态| 激情国产一区| 国产一区二区三区自拍| 激情久久五月天| 欧美全黄视频| 蜜桃伊人久久| 久久免费国产| 国产精品不卡在线| 亚洲视频中文| 一本色道久久综合狠狠躁的推荐| 亚洲精品永久免费精品| 国产精品视频不卡| 欧美国产亚洲视频| 久久男人资源视频| 亚洲精品在线观看视频| 国产精品福利影院| 亚洲一区在线观看免费观看电影高清| 亚洲欧美日韩人成在线播放| 欧美日韩亚洲国产精品| 亚洲一区二区在线免费观看| 国产精品ⅴa在线观看h| 国产精品老女人精品视频| 狠狠干综合网| 欧美国产在线视频| 亚洲伊人久久综合| 麻豆精品在线播放| 国内精品久久久久久久影视蜜臀| 欧美日韩亚洲网| 欧美极品影院| 中文在线不卡视频| 国产精品美女久久久| 国产乱人伦精品一区二区| 欧美日韩大陆在线| 99视频一区二区| 99re热这里只有精品免费视频| 欧美激情偷拍| 欧美国产欧美亚洲国产日韩mv天天看完整| 免费短视频成人日韩| 国产日韩欧美精品一区| 国内精品久久久久久影视8| 国产午夜亚洲精品不卡| 亚洲风情亚aⅴ在线发布| 亚洲欧美久久| 久久久女女女女999久久| 一本色道久久综合亚洲二区三区| 亚洲专区免费| 亚洲第一精品福利| 亚洲私人黄色宅男| 欧美不卡在线视频| 国产精品任我爽爆在线播放| 欧美亚洲视频一区二区| 久久久美女艺术照精彩视频福利播放|