由德克薩斯大學(xué)西南醫(yī)學(xué)中心的研究人員領(lǐng)導(dǎo)的一個(gè)研究小組開發(fā)了深度學(xué)習(xí)模型,以確定一套控制啟動(dòng)子活動(dòng)的簡單規(guī)則-啟動(dòng)子是DNA的區(qū)域,啟動(dòng)基因產(chǎn)生蛋白質(zhì)的過程。他們的研究結(jié)果發(fā)表在《Science》雜志上,可以讓我們更好地理解啟動(dòng)子是如何在健康和疾病中促進(jìn)基因調(diào)控的。
“盡管啟動(dòng)子對(duì)每個(gè)基因的功能都至關(guān)重要,但盡管幾十年的研究已經(jīng)定義了它們的許多特征,但我們對(duì)這些遺傳元件如何運(yùn)作的理解是不完整的。我們的研究揭示了這些序列如何在人類和其他哺乳動(dòng)物中發(fā)揮作用,”德克薩斯大學(xué)西南分校Lyda Hill生物信息系助理教授Jian Zhou博士說。Jian Zhou博士與第一作者、研究生Kseniia Dudnyk和德克薩斯大學(xué)西南分校兒童醫(yī)學(xué)中心研究所的前研究員Jian Xu博士共同領(lǐng)導(dǎo)了這項(xiàng)研究。
細(xì)胞用來進(jìn)行活動(dòng)的蛋白質(zhì)的產(chǎn)生始于一個(gè)被稱為轉(zhuǎn)錄的過程。當(dāng)RNA聚合酶蛋白附著在DNA鏈上并將編碼信息復(fù)制或轉(zhuǎn)錄到RNA分子中時(shí),就會(huì)發(fā)生這種情況。RNA聚合酶附著開始轉(zhuǎn)錄的區(qū)域稱為啟動(dòng)子。在人類中,啟動(dòng)子通常由數(shù)百個(gè)堿基對(duì)組成,這些堿基對(duì)是構(gòu)成DNA的單位。盡管研究人員已經(jīng)確定了一些DNA啟動(dòng)子區(qū)域共享的共同堿基對(duì)序列,但這些序列在人類啟動(dòng)子中通常不存在,這使得DNA序列如何指導(dǎo)轉(zhuǎn)錄過程的規(guī)則不清楚。
Kseniia Dudnyk是德州大學(xué)西南分校周實(shí)驗(yàn)室的一名研究生。
為了更好地定義人類的啟動(dòng)子及其運(yùn)作方式,研究人員開發(fā)了一種機(jī)器學(xué)習(xí)程序,他們將其命名為Puffin。在分析了數(shù)以萬計(jì)的已知人類啟動(dòng)子的數(shù)據(jù)后,該程序確定它們由三種類型的序列模式組成:基序、啟動(dòng)子和三核苷酸。
Puffin表明,根據(jù)這些元素的排列方式,它們可以激活或抑制基因的轉(zhuǎn)錄。Puffin還可以預(yù)測這些元素的排列如何指導(dǎo)RNA聚合酶優(yōu)先轉(zhuǎn)錄單鏈DNA或同時(shí)轉(zhuǎn)錄兩條相反方向的DNA。這種雙向轉(zhuǎn)錄在人類基因中很常見。
該程序進(jìn)一步表明,小鼠和其他哺乳動(dòng)物在控制啟動(dòng)子操作方面具有相似的規(guī)則集。此外,Puffin還允許研究人員預(yù)測如果啟動(dòng)子發(fā)生突變,轉(zhuǎn)錄是否會(huì)發(fā)生以及如何發(fā)生,這一發(fā)現(xiàn)與實(shí)驗(yàn)結(jié)果非常吻合。
該研究的作者認(rèn)為,Puffin可以幫助他們了解啟動(dòng)子如何在健康細(xì)胞中起作用,以及啟動(dòng)子中與疾病相關(guān)的改變?nèi)绾螌?dǎo)致基因轉(zhuǎn)錄的變化。這個(gè)程序可以在一個(gè)免費(fèi)的web服務(wù)器上獲得,以便其他研究人員可以測試任何感興趣的啟動(dòng)子序列。他們補(bǔ)充說,使用類似的機(jī)器學(xué)習(xí)方法可以深入了解基因組的其他方面,這些方面仍然沒有得到很好的理解。
(文章來源:www.ebiotrade.com/newsf/2024-5) |