利用5hmC信號預測基因表達狀態和增強子將5hmC與基因活性聯系起來 二維碼
發表時間:2024-06-06 16:48 5-羥甲基胞嘧啶(5hmC)是胞嘧啶在CpG二核苷酸背景下的直接表觀遺傳修飾。5hmC是最豐富的5mC氧化形式。拉霍亞免疫學研究所(La Jolla Institute for Immunology,LJI)的科學家們開發了一種新的計算方法,將這種DNA上的分子標記與基因活性聯系起來。他們的工作可能有助于研究人員將基因與“打開或關閉基因的分子開關”聯系起來。這項研究發表在《Genome Biology》雜志上,是利用機器學習方法更好地理解基因表達與疾病發展之間聯系的重要一步。 LJI副教授Ferhat Ay博士與LJI教授Anjana Rao博士共同領導了這項研究,他說:“這項研究是為了從三維的角度來研究DNA修飾及其在我們基因組中的功能。”Ay和Rao正致力于精確定位基因組中包含分子增強子或“開關”的區域,這些分子增強子或“開關”可以微調基因表達水平,并決定基因何時何地開啟或關閉。這項工作需要研究人員開發計算工具,利用復雜的基因組數據,發現哪些增強子與哪些基因關連。 在這項新研究中,LJI的研究人員使用了線性和圖形神經網絡的機器學習工具來處理基因組數據并建立這些聯系。神經網絡是模擬大腦中神經元如何處理信息和識別模式的計算工具。圖神經網絡能夠整合三維信息,比如細胞內DNA的物理相互作用。Edahí González-Avalos博士作為加州大學圣地亞哥分校的研究生,在LJI的Rao和Ay的共同指導下率先開發了這個圖神經網絡。“我們可以用它來優先考慮基因組內的DNA相互作用,”González-Avalos說,他現在在Guardant Health工作。 研究內容 研究人員訓練新的神經計算網絡,使其了解這種重要的DNA修飾:5hmC,是如何與基因表達活性相關的,無論它是在基因附近還是遠離基因。這種羥甲基與胞嘧啶的連接與增強子活性有關。事實上,5hmC對基因表達有如此重要的影響,以至于科學家們將5hmC稱為DNA字母表的“第六個字母”,與A、T、C、G和被稱為第五種堿基的5mC甲基化形式并列。胞嘧啶上5mC到5hmC的轉化與增強子活性有關,5hmC越多,增強子活性水平越高。 在之前的研究中,Rao實驗室的研究人員發現,基因組中5hmC的位置根據他們觀察的細胞類型以及這些細胞類型表達的基因而變化。雖然實際的DNA序列是一樣的,但是在肝細胞和肺細胞或腦細胞中,5hmC會附著在基因組的不同位置。這種5hmC分布控制著這些不同類型細胞中不同基因組的表達。研究人員發現,5hmC附著在基因組中作為增強子的區域上——這些區域幫助基因表達的開啟和關閉——以及基因本身。這些活性基因和增強子的差異代表肝細胞與肺細胞或大腦神經元的區別。 結果和結論 作者僅利用基因區域及其附近的5hmC富集,建立了預測49種細胞類型的基因表達狀態的神經網絡模型。這個深度神經網絡模型僅利用5hmC水平來區分高表達狀態和低表達狀態,并且這些預測模型可以推廣到未知的細胞類型。此外,為了利用遠端增強子中的5hmC信號進行表達預測,他們采用了一種接觸活性模型,并開發了一種圖卷積神經網絡模型,該模型利用Hi-C數據和5hmC富集來確定增強子-啟動子鏈接的優先級。這些方法在多個免疫細胞亞群中鑒定出已知的和新的假定的關鍵基因增強子。 研究強調了5hmC通過近端和遠端機制在基因調控中的重要性,并提供了將其與基因組功能聯系起來的框架。隨著短讀和長讀技術在包括5mC和5hmC在內的DNA測序方面的最新進展,5mC和5hmC的分析可能在不久的將來常規進行,因此,為本文開發的方法提供了廣泛的應用。 作者視角 Rao說:“5hmC的分布因細胞類型而異。”“如果你能知道5hmC在哪里,你就能推斷出產生你正在研究的DNA的細胞類型。”例如,如果一個細胞是癌細胞,你可以推斷出它是哪種類型的癌癥,即使它已經轉移(遠離)它在體內的原始位置。與以前的方法相比,新的研究方法可以在基因和增強子之間建立更簡單的聯系。 González-Avalos說:“這篇論文是一個概念驗證,表明我們可以使用這些圖形神經網絡來預測基因和5hmC增強子之間的相互作用。”Ay說,他很高興看到神經網絡揭示了基因和基因組遙遠區域的5hmC之間的聯系。這些跨越基因組的長距離連接有助于優先考慮具有增強基因表達能力的區域。“令人興奮的是,其中一些遙遠的增強因子是以前未被發現的新調控元素。” 展望未來,研究人員希望更仔細地觀察5hmC的分布,以更好地了解人類細胞中的增強子和基因相互作用。“這項研究是用小鼠細胞的數據完成的,”Ay說。“接下來,我們希望研究5hmC及其在患者免疫細胞和癌細胞中的相互作用。” 就像在正常細胞中一樣,不同類型癌細胞之間的5hmC分布也不同。這意味著新的LJI方法對于理解驅動癌癥發展的遺傳機制可能是有價值的。Rao說,這種新方法也可能為更快、更準確的癌癥診斷打開大門。科學家對血液樣本進行分析以尋找體內實體瘤的跡象,但實體瘤細胞通常不存在于血液中。可用的是DNA,通常是部分降解的DNA。”正如Rao解釋的那樣,如果醫生能夠超越DNA本身,分析5hmC的分布,他們就可以幫助更多的病人,并可能更早地發現癌癥。 在科學家擁有這種癌癥檢測工具之前,還需要做更多的工作,這項新工作顯示了將實驗數據與新的計算方法相結合的力量。“這表明,通過應用我們的新方法,我們可以識別新的和未注釋的遠端增強子,”Ay說。
本網站所有轉載文章系出于傳遞更多信息之目的,轉載內容不代表本站立場。不希望被轉載的媒體或個人可與我們聯系,我們將立即進行刪除處理。 |
|