新研究,利用FUN-PROSE預(yù)測真菌基因的反應(yīng)

利用FUN-PROSE預(yù)測真菌基因的反應(yīng)

 二維碼
發(fā)表時間:2023-11-22 16:53

來自環(huán)境的信號引發(fā)一系列變化,以不同的方式影響不同的基因。因此,傳統(tǒng)上很難研究這些信號如何影響生物體。在一項新的研究中,研究人員開發(fā)了一種名為FUN-PROSE的機(jī)器學(xué)習(xí)方法來預(yù)測基因?qū)Σ煌h(huán)境條件的反應(yīng)。

不管生物體是什么,細(xì)胞都會利用mRNA對周圍環(huán)境進(jìn)行微調(diào)。首先,他們使用一種叫做轉(zhuǎn)錄因子的蛋白質(zhì)來感知變化,然后將其與基因前面的DNA序列(稱為啟動子)結(jié)合。這種附著既可以阻止基因形成mRNA,也可以增加mRNA的數(shù)量。然后mRNA作為模板在細(xì)胞中產(chǎn)生負(fù)責(zé)各種功能的蛋白質(zhì)。這種機(jī)制允許細(xì)胞快速重新分配資源,以維持生存。

研究啟動子如何被控制是基因組學(xué)中最古老的挑戰(zhàn)之一,但研究人員仍在繼續(xù)努力解決這個問題。**的問題是不同的轉(zhuǎn)錄因子可以結(jié)合到相同的啟動子序列,并且在不同的環(huán)境條件下以不同的排列方式結(jié)合。此外,雖然有一些證據(jù)表明轉(zhuǎn)錄因子傾向于與啟動子中的特定序列基序結(jié)合,但并非所有這些都得到了廣泛的研究。近年來,研究人員轉(zhuǎn)向人工智能來幫助他們解決這些挑戰(zhàn)。

生物工程和物理學(xué)教授Sergei Maslov (CAIM的***/CABBI):“基因有平均的表達(dá)水平,以前的機(jī)器學(xué)習(xí)模型無法測量在不同條件下這些水平是如何變化的。”“我們感興趣的是了解特定基因?qū)?/span>pH值、溫度和營養(yǎng)變化的反應(yīng)。

研究人員開發(fā)了一種名為條件特異性表達(dá)真菌啟動子”(FUN-PROSE)的模型,用于預(yù)測面包酵母(釀酒酵母)和研究較少的真菌粗神經(jīng)孢子菌和Issatchenkia orientalis對環(huán)境變化的反應(yīng)。

為了建立這個模型,研究人員首先必須確定這三個物種的啟動子序列和轉(zhuǎn)錄因子。然后,他們訓(xùn)練模型來了解哪些啟動子基序在不同條件下被轉(zhuǎn)錄因子識別。

馬斯洛夫研究小組的研究生阿南森·納姆比亞(Ananthan Nambiar):“草棘球菌和東方棘球菌的轉(zhuǎn)錄因子不像葡萄球菌那樣廣為人知,所以我們必須推斷出哪些基因可以通過這些物種的轉(zhuǎn)錄因子來識別。維羅妮卡·杜賓金娜(Veronika Dubinkina)是馬斯洛夫小組的前研究生,現(xiàn)在是格萊斯頓研究所的博士后研究員,她說,這個過程涉及到一種常用的方法,即掃描已知與DNA結(jié)合的蛋白質(zhì)區(qū)域。

最后,該模型學(xué)會了如何整合所有信息,以計算在特定條件下與mRNA的平均水平相比產(chǎn)生了多少mRNA。然后,研究人員將FUN-PROSE獲得的結(jié)果與RNA-seq數(shù)據(jù)進(jìn)行了比較,RNA-seq數(shù)據(jù)測量了所有三種真菌的mRNA水平波動。每個生物體都有超過4000個基因和180個轉(zhuǎn)錄因子,這些轉(zhuǎn)錄因子在12-295個條件下被測量,這取決于對它的研究程度。

預(yù)測在一系列條件下哪些基因是重要的一直是一個難題。然而,我們發(fā)現(xiàn)我們的模型非常接近于預(yù)測這些生物體實(shí)際發(fā)生的情況,”Nambiar說。

除了評估其性能外,研究人員還闡明了該模型如何進(jìn)行預(yù)測。馬斯洛夫研究小組的前本科生西蒙·(Simon Liu):“即使它有黑箱的性質(zhì),我們也能夠理解我們的模型是如何看待啟動子的,并發(fā)現(xiàn)它已經(jīng)學(xué)會了搜索已知的序列。”“能夠解釋經(jīng)過訓(xùn)練的模型對于驗證其邏輯以及使用它來發(fā)現(xiàn)新的監(jiān)管知識至關(guān)重要。

然而,這種模式確實(shí)在與以前從未遇到過的推廣者作斗爭。Nambiar:“這個模型在新的條件下很好,但是如果你給它一個新的基因或啟動子序列,它就會出錯。

根據(jù)馬斯洛夫的說法,這些錯誤是由于可用的數(shù)據(jù)有限。機(jī)器學(xué)習(xí)是一個黑匣子,你需要好好訓(xùn)練它,這樣你才能學(xué)習(xí)生物學(xué),他說。如果我們能獲得更多的數(shù)據(jù),這個模型將有更多的模式可供學(xué)習(xí),并將做出更準(zhǔn)確的預(yù)測。

研究人員現(xiàn)在有興趣在其他生物體上測試他們的模型。原則上,我們的技術(shù)沒有任何限制——它應(yīng)該適用于任何生物體。然而,以動物為例,基因以更復(fù)雜的方式控制,這將需要模型結(jié)構(gòu)的重大改變和更多的訓(xùn)練數(shù)據(jù)。”Maslov說。不過,看看這種模式能有多好,還是很有趣的。

本網(wǎng)站所有轉(zhuǎn)載文章系出于傳遞更多信息之目的,轉(zhuǎn)載內(nèi)容不代表本站立場。不希望被轉(zhuǎn)載的媒體或個人可與我們聯(lián)系,我們將立即進(jìn)行刪除處理。


相關(guān)閱讀
最新動態(tài)