新型AI算法準確預測RNA三維結構 二維碼
發表時間:2022-11-11 10:49 近日,美國斯坦福大學在讀博士生 Stephan Eismann 和 Raphael Townshend 在計算機副教授 Ron Dror 的指導下,利用目前先進的神經網絡技術,成功開發出了一種全新 RNA 三維結構預測模型——ARES。與其他傳統 AI 算法不同,ARES 的結構框架并不是針對 RNA 結構設計,而是針對原子結構設計的。通過不斷調整參數,ARES 可以深入了解 RNA 上每個原子之間的相對位置以及幾何排列,進而推算出 RNA **三維幾何結構,其準確性遠超傳統方法。該研究以“Geometric deep learning of RNA structure”為題,發表在最新一期的 《Science》雜志上。 對于這一研究結果,Eismann 博士表示,“傳統 RNA 三維結構預測模型主要針對 RNA 結構設計,這樣設計的算法得出的結構更傾向于 AI 訓練時所使用的 RNA 結構,由于目前人們對 RNA 三維結構了解并不多,因此這類算法并不準確。而我們更傾向于從原子結構出發,讓系統自己去尋找 RNA 的空間結構,因此它能更好地發現我們此前未知的結構。” RNA:生物醫藥的未來 自 1953 年 DNA 雙螺旋結構發現至今的幾十年來,生命科學的舞臺一直被 DNA 和蛋白質霸占。DNA 負責遺傳信息存儲,蛋白質負責基因指令執行,而 RNA 不過是中間環節的傳遞者。正是基于蛋白質領域的諸多發現,科學家們成功制造出了胰島素、干擾素以及各種新型抗癌藥物等先進的醫學成果。同時,通過改造 DNA,科學家門也在基因療法治療血友病、遺傳學失明以及其他疑難雜癥上取得了長足的進步。 然而,人類過去在生物醫藥領域的征途中,一直忽略了 RNA 分子的存在。雖然,科學家很早就知道 RNA 參與了幾乎所有的細胞過程,但是由于 RNA 的結構不如 DNA 穩定,長期以來 RNA 一直被當做配角,籠罩在 DNA 和蛋白質的光芒之下。當然,生物學家現在已經知道,人類基因組 85%能轉錄成 RNA,但大部分 RNA 并不會翻譯成蛋白質,而是擁有多種多樣功能的調節分子,RNA 不僅傳遞蛋白質合成的遺傳信息,也是控制基因活性和調節其他 RNA 功能的重要因素。 而 RNA 藥物的出現,顛更是覆了傳統藥物研發的邏輯思路。從理論上講,只要知道致病基因的序列,設計與致病序列互補的 RNA,即可從源頭控制致病蛋白的翻譯表達,以達到治療疾病的目的。以 RNA 作為靶點,可以極大地豐富了藥物靶點的選擇,為藥物研發帶來新的變革。因此,近年來,越來越多的研究者和商業團體將目光投向了 RNA 療法。RNA 開始作為治療藥物引領現在生物醫藥的浪潮,未來有望和抗體、小分子抑制劑一樣,成為生物醫藥領域最閃耀的新星。 解析 RNA 三維結構 序列決定結構,結構決定功能,這是 RNA 和蛋白質這樣的生物大分子的基本法則。這也是為什么科學家熱衷于研究這些生物分子機器精細結構的深層原因,因為只有知道了結構才能知道功能背后的原理。長期以來,科學家對 RNA 復雜多樣的結構并不十分了解。DNA 是能預測的雙螺旋結構,RNA 與 DNA 不同,是單鏈折疊成的隆起、假結、頭樣、發夾等多種多樣的復雜三維循環結構。滿足不同功能狀態的需要,不同折疊能相互轉化。科學家對 RNA 的上述信息了解非常膚淺,這也是目前 RNA 功能研究中最薄弱的環節。 近年來,科學家開始對 RNA 結構研究發起挑戰。Bevilacqua, Weissman 等設計的技術能對細胞內大量 RNA 結構進行整體解析,初步研究結果發現,活細胞內 RNA 折疊方式與人工條件下的完全不同。 RNA 分子通常有一個線性核苷酸鏈,但在細胞核內合成后,會通過自身核苷酸配對迅速折疊,然后進一步折疊成復雜三維結構,與蛋白和其他 RNA 分子發生相互作用時會改變形狀。研究 RNA 結構的大部分技術利用核苷酸相互結合的特點,或者序列對某些酶的敏感性。計算機模擬技術也有助于整體結構的分析。但是這些方法非常繁瑣,一次只能分析一個分子的一部分。因此,雖然越來越多的證據表明,從細菌到人類功能性 RNA 無處不在,理論上靶向 RNA 可以治療人類任何疾病,但是由于無法準確獲得 RNA 的三維結構,有關 RNA 的基礎研究和藥物拓展一直受阻。 AI 算法解決結構生物學挑戰 預測蛋白質復合物以及 RNA 三維空間結構是生物化學領域一項巨大的挑戰,對于基礎科學和藥物研發具有重大的意義。Stephan Eismann 博士等人致力于相關的研究。以往蛋白質復合物以及 RNA 等生物大分子結構人工智能預測模型通常會直接利用給定的結構特征來進行訓練。然而,在研究過程中,人們發現,這種利用上述方法開發出的模型預測結果往往偏向于模型訓練時喂養結構的特征。因此,即使科學家努力試圖對模型進行優化,但是預測的準確性依舊十分有限。 為了準確預測蛋白質復合物以及 RNA 等生物大分子的三維結構,Eismann 博士等人換了一個角度思考,即能否直接利用人工智能學習上述生物大分子原子水平的結構,以提高預測結果的準確性。為此,研究人員基于深度學習網絡開發了一種全新的人工智能模型,ARES。與其他模型不同,ARES 旨在準確了解生物大分子中每個原子的準確位置和幾何排列,以及不同原子之間的相對位置。 早在 2020 年的時候,Eismann 博士等人就曾利用這一理論成功開發出了一種準確預測蛋白質復合物三維結構的模型,相關研究發表在 Proteins 雜志上。而在本研究中,Eismann 博士等人繼續對 ARES 進行了優化。研究人員采用原子坐標作為輸入數據,而不包含 RNA 結構的空間特征。通過不斷調整參數,ARES 首先了解每個原子的功能和空間排列,隨后識別堿基配對規則、RNA 螺旋**幾何形狀以及三維空間結構。 最終,研究人員僅用了 18 個已知 RNA 三維結構,就成功訓練出了 ARES。在隨后的研究中,Eismann 博士等人證實,ARES 雖然僅由 18 個 RNA 結構訓練而來,但是它同樣可以準確預測其他復雜 RNA 的三維空間結構,且準確性均顯著優于既往的模型。 對此,Dror 教授表示,“人工智能近年來取得的重大突破均需要大量的數據訓練,而 ARES 在訓練數據如此少的情況下也取得了成功,這一思路為未來數據稀缺領域的科學研究提供新的解決方案。” |
|