利用5hmC信號預(yù)測基因表達(dá)狀態(tài)和增強(qiáng)子將5hmC與基因活性聯(lián)系起來

 二維碼
發(fā)表時間:2024-06-06 16:48

5-羥甲基胞嘧啶(5hmC)是胞嘧啶在CpG二核苷酸背景下的直接表觀遺傳修飾。5hmC是最豐富的5mC氧化形式。拉霍亞免疫學(xué)研究所(La Jolla Institute for ImmunologyLJI)的科學(xué)家們開發(fā)了一種新的計算方法,將這種DNA上的分子標(biāo)記與基因活性聯(lián)系起來。他們的工作可能有助于研究人員將基因與打開或關(guān)閉基因的分子開關(guān)聯(lián)系起來。這項研究發(fā)表在《Genome Biology》雜志上,是利用機(jī)器學(xué)習(xí)方法更好地理解基因表達(dá)與疾病發(fā)展之間聯(lián)系的重要一步。

LJI副教授Ferhat Ay博士與LJI教授Anjana Rao博士共同領(lǐng)導(dǎo)了這項研究,他說:“這項研究是為了從三維的角度來研究DNA修飾及其在我們基因組中的功能。”AyRao正致力于精確定位基因組中包含分子增強(qiáng)子或開關(guān)的區(qū)域,這些分子增強(qiáng)子或開關(guān)可以微調(diào)基因表達(dá)水平,并決定基因何時何地開啟或關(guān)閉。這項工作需要研究人員開發(fā)計算工具,利用復(fù)雜的基因組數(shù)據(jù),發(fā)現(xiàn)哪些增強(qiáng)子與哪些基因關(guān)連。

在這項新研究中,LJI的研究人員使用了線性和圖形神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)工具來處理基因組數(shù)據(jù)并建立這些聯(lián)系。神經(jīng)網(wǎng)絡(luò)是模擬大腦中神經(jīng)元如何處理信息和識別模式的計算工具。圖神經(jīng)網(wǎng)絡(luò)能夠整合三維信息,比如細(xì)胞內(nèi)DNA的物理相互作用。Edahí González-Avalos博士作為加州大學(xué)圣地亞哥分校的研究生,在LJIRaoAy的共同指導(dǎo)下率先開發(fā)了這個圖神經(jīng)網(wǎng)絡(luò)。我們可以用它來優(yōu)先考慮基因組內(nèi)的DNA相互作用,”González-Avalos說,他現(xiàn)在在Guardant Health工作。

研究內(nèi)容

研究人員訓(xùn)練新的神經(jīng)計算網(wǎng)絡(luò),使其了解這種重要的DNA修飾:5hmC,是如何與基因表達(dá)活性相關(guān)的,無論它是在基因附近還是遠(yuǎn)離基因。這種羥甲基與胞嘧啶的連接與增強(qiáng)子活性有關(guān)。事實(shí)上,5hmC對基因表達(dá)有如此重要的影響,以至于科學(xué)家們將5hmC稱為DNA字母表的第六個字母,與ATCG和被稱為第五種堿基的5mC甲基化形式并列。胞嘧啶上5mC5hmC的轉(zhuǎn)化與增強(qiáng)子活性有關(guān),5hmC越多,增強(qiáng)子活性水平越高。

在之前的研究中,Rao實(shí)驗(yàn)室的研究人員發(fā)現(xiàn),基因組中5hmC的位置根據(jù)他們觀察的細(xì)胞類型以及這些細(xì)胞類型表達(dá)的基因而變化。雖然實(shí)際的DNA序列是一樣的,但是在肝細(xì)胞和肺細(xì)胞或腦細(xì)胞中,5hmC會附著在基因組的不同位置。這種5hmC分布控制著這些不同類型細(xì)胞中不同基因組的表達(dá)。研究人員發(fā)現(xiàn),5hmC附著在基因組中作為增強(qiáng)子的區(qū)域上——這些區(qū)域幫助基因表達(dá)的開啟和關(guān)閉——以及基因本身。這些活性基因和增強(qiáng)子的差異代表肝細(xì)胞與肺細(xì)胞或大腦神經(jīng)元的區(qū)別。

結(jié)果和結(jié)論

作者僅利用基因區(qū)域及其附近的5hmC富集,建立了預(yù)測49種細(xì)胞類型的基因表達(dá)狀態(tài)的神經(jīng)網(wǎng)絡(luò)模型。這個深度神經(jīng)網(wǎng)絡(luò)模型僅利用5hmC水平來區(qū)分高表達(dá)狀態(tài)和低表達(dá)狀態(tài),并且這些預(yù)測模型可以推廣到未知的細(xì)胞類型。此外,為了利用遠(yuǎn)端增強(qiáng)子中的5hmC信號進(jìn)行表達(dá)預(yù)測,他們采用了一種接觸活性模型,并開發(fā)了一種圖卷積神經(jīng)網(wǎng)絡(luò)模型,該模型利用Hi-C數(shù)據(jù)和5hmC富集來確定增強(qiáng)子-啟動子鏈接的優(yōu)先級。這些方法在多個免疫細(xì)胞亞群中鑒定出已知的和新的假定的關(guān)鍵基因增強(qiáng)子。

研究強(qiáng)調(diào)了5hmC通過近端和遠(yuǎn)端機(jī)制在基因調(diào)控中的重要性,并提供了將其與基因組功能聯(lián)系起來的框架。隨著短讀和長讀技術(shù)在包括5mC5hmC在內(nèi)的DNA測序方面的最新進(jìn)展,5mC5hmC的分析可能在不久的將來常規(guī)進(jìn)行,因此,為本文開發(fā)的方法提供了廣泛的應(yīng)用。

作者視角

Rao:“5hmC的分布因細(xì)胞類型而異。”“如果你能知道5hmC在哪里,你就能推斷出產(chǎn)生你正在研究的DNA的細(xì)胞類型。例如,如果一個細(xì)胞是癌細(xì)胞,你可以推斷出它是哪種類型的癌癥,即使它已經(jīng)轉(zhuǎn)移(遠(yuǎn)離)它在體內(nèi)的原始位置。與以前的方法相比,新的研究方法可以在基因和增強(qiáng)子之間建立更簡單的聯(lián)系。

González-Avalos:“這篇論文是一個概念驗(yàn)證,表明我們可以使用這些圖形神經(jīng)網(wǎng)絡(luò)來預(yù)測基因和5hmC增強(qiáng)子之間的相互作用。”Ay說,他很高興看到神經(jīng)網(wǎng)絡(luò)揭示了基因和基因組遙遠(yuǎn)區(qū)域的5hmC之間的聯(lián)系。這些跨越基因組的長距離連接有助于優(yōu)先考慮具有增強(qiáng)基因表達(dá)能力的區(qū)域。令人興奮的是,其中一些遙遠(yuǎn)的增強(qiáng)因子是以前未被發(fā)現(xiàn)的新調(diào)控元素。

展望未來,研究人員希望更仔細(xì)地觀察5hmC的分布,以更好地了解人類細(xì)胞中的增強(qiáng)子和基因相互作用。這項研究是用小鼠細(xì)胞的數(shù)據(jù)完成的,”Ay說。接下來,我們希望研究5hmC及其在患者免疫細(xì)胞和癌細(xì)胞中的相互作用。

就像在正常細(xì)胞中一樣,不同類型癌細(xì)胞之間的5hmC分布也不同。這意味著新的LJI方法對于理解驅(qū)動癌癥發(fā)展的遺傳機(jī)制可能是有價值的。Rao說,這種新方法也可能為更快、更準(zhǔn)確的癌癥診斷打開大門。科學(xué)家對血液樣本進(jìn)行分析以尋找體內(nèi)實(shí)體瘤的跡象,但實(shí)體瘤細(xì)胞通常不存在于血液中。可用的是DNA,通常是部分降解的DNA正如Rao解釋的那樣,如果醫(yī)生能夠超越DNA本身,分析5hmC的分布,他們就可以幫助更多的病人,并可能更早地發(fā)現(xiàn)癌癥。

在科學(xué)家擁有這種癌癥檢測工具之前,還需要做更多的工作,這項新工作顯示了將實(shí)驗(yàn)數(shù)據(jù)與新的計算方法相結(jié)合的力量。這表明,通過應(yīng)用我們的新方法,我們可以識別新的和未注釋的遠(yuǎn)端增強(qiáng)子,”Ay說。

本網(wǎng)站所有轉(zhuǎn)載文章系出于傳遞更多信息之目的,轉(zhuǎn)載內(nèi)容不代表本站立場。不希望被轉(zhuǎn)載的媒體或個人可與我們聯(lián)系,我們將立即進(jìn)行刪除處理。


相關(guān)閱讀
最新動態(tài)