解碼利用AI高效發(fā)現(xiàn)靶點(diǎn)的策略,英矽智能發(fā)表綜述論文 二維碼
發(fā)表時(shí)間:2023-08-07 16:58 全球領(lǐng)先的由生成式人工智能驅(qū)動(dòng)的生物醫(yī)藥科技公司英矽智能在 Cell Press 旗下藥理學(xué)權(quán)威期刊 Trends in Pharmacological Sciences 發(fā)布觀點(diǎn)文章,闡述靶點(diǎn)發(fā)現(xiàn)從傳統(tǒng)實(shí)驗(yàn)方法到引入多組學(xué)分析、機(jī)器學(xué)習(xí)輔助,最終發(fā)展到人工智能驅(qū)動(dòng)的范式轉(zhuǎn)變,并分享靶點(diǎn)評估相關(guān)見解。文章探討多種創(chuàng)新靶點(diǎn)發(fā)現(xiàn)策略,包括深度學(xué)習(xí)模型發(fā)現(xiàn)靶點(diǎn)、通過實(shí)驗(yàn)驗(yàn)證人工智能識(shí)別的靶點(diǎn)、以及使用生成式人工智能合成數(shù)據(jù)輔助靶點(diǎn)發(fā)現(xiàn)。除成藥性和毒理外,新穎性也是靶點(diǎn)評估的關(guān)鍵因素。靶點(diǎn)的可信度和新穎性之間需要權(quán)衡。 英矽智能持續(xù)關(guān)注前沿AI科技進(jìn)展,并在其自研Pharma.AI藥物發(fā)現(xiàn)平臺(tái)下建設(shè)了靶點(diǎn)發(fā)現(xiàn)引擎PandaOmics,由超過20種預(yù)測模型和生成生物學(xué)模型搭建而成,集成***組學(xué)數(shù)據(jù)樣本、***分子信息和數(shù)十萬級(jí)分子相互作用機(jī)制等數(shù)據(jù)。該平臺(tái)可支持專業(yè)的靶點(diǎn)篩選、排序和分析,兼具針對生命科學(xué)信息自然語言問答系統(tǒng)和將疾病、基因及藥物聯(lián)系起來的知識(shí)圖譜功能。 靶點(diǎn)識(shí)別概述 人們普遍認(rèn)為藥物研發(fā)過程耗時(shí)長、成本高、風(fēng)險(xiǎn)大,將一種新藥推向市場通常需要10年左右的時(shí)間和20億美元。到2022年,已經(jīng)得到驗(yàn)證的成功藥物靶點(diǎn)不到500個(gè)。相對于人類估計(jì)的可成藥靶點(diǎn)總數(shù),這只是很小的一個(gè)部分。盡管許多候選藥物在臨床前階段經(jīng)過了大量的優(yōu)化,2009-2018年間臨床試驗(yàn)的平均失敗率高達(dá)84.6%,造成大量的時(shí)間和金錢浪費(fèi)。 候選藥物折戟臨床試驗(yàn)階段的主要原因在于未表現(xiàn)出良好臨床藥效,而適宜的藥物靶點(diǎn)是提升成功率的關(guān)鍵因素。 為達(dá)到治療效果,藥物分子應(yīng)當(dāng)對特定的生物分子或細(xì)胞通路進(jìn)行調(diào)節(jié),確認(rèn)這些“調(diào)節(jié)目標(biāo)”的過程就是“靶點(diǎn)識(shí)別”,在現(xiàn)代藥物發(fā)現(xiàn)流程中越發(fā)受到重視。盡管過去的幾十年見證了實(shí)驗(yàn)和組學(xué)技術(shù)的持續(xù)突破創(chuàng)新,但確定可操作的治療靶點(diǎn)仍然充滿挑戰(zhàn)。當(dāng)前,將多組學(xué)數(shù)據(jù)與人工智能算法結(jié)合的靶點(diǎn)識(shí)別方法正獲得關(guān)注,被認(rèn)為具有廣闊的應(yīng)用前景。 本文中,我們討論常規(guī)的靶點(diǎn)識(shí)別方法,并著重闡述工智能算法在靶點(diǎn)識(shí)別中的應(yīng)用,旨在展望即將到來的AI驅(qū)動(dòng)藥物發(fā)現(xiàn)時(shí)代,并鼓勵(lì)將人工智能整合到藥物研發(fā)的嘗試。 1、實(shí)驗(yàn)方法 自 20 世紀(jì) 60 年代以來,實(shí)驗(yàn)方法在靶點(diǎn)識(shí)別方面做出了突出貢獻(xiàn),包括基于親和力的生化方法、比較分析方法和化學(xué)遺傳篩選方法。其中,采用小分子親和探針在配體與蛋白質(zhì)相互作用時(shí)對蛋白質(zhì)進(jìn)行無痕標(biāo)記,是最為直接的一種方法。探針的選擇在很大程度上取決于起始分子的特性。 細(xì)胞培養(yǎng)條件下穩(wěn)定同位素標(biāo)記技術(shù)(Stable isotope labeling by amino acids in cell culture,SILAC)則是比較分析的一個(gè)例子。這是一種較為常用的定量蛋白質(zhì)組學(xué)工具,利用穩(wěn)定同位素標(biāo)記的氨基酸來準(zhǔn)確區(qū)分細(xì)胞蛋白質(zhì)組。在肝細(xì)胞癌(HCC)、多發(fā)性骨髓瘤、子宮內(nèi)膜癌和結(jié)腸直腸癌等多種癌癥類型中進(jìn)行的研究清楚地證明了SILAC確定疾病發(fā)病關(guān)鍵機(jī)制的作用。 以RNA干擾和CRISPR-Cas9基因編輯為輔助的化學(xué)遺傳篩選方法長期受到關(guān)注。利用針對性的CRISPR干擾篩選,生物學(xué)家成功定位到SARS-CoV-2的重要調(diào)節(jié)因子BRD2。盡管 CRISPR技術(shù)問世已有10年之久,但它仍在不斷發(fā)展,以進(jìn)一步提高其靈活性、簡便性和高效性,不僅可用于靶點(diǎn)識(shí)別,還可作為基因治療和診斷工具。2、多組學(xué)方法 多組學(xué)數(shù)據(jù)為研究人員提供了來自不同方面的相互關(guān)聯(lián)的分子信息,包括靜態(tài)基因組數(shù)據(jù)、時(shí)空動(dòng)態(tài)表達(dá)水平、代謝數(shù)據(jù)。 作為建立最早、發(fā)展最成熟的組學(xué)學(xué)科,基因組學(xué)主要研究 DNA 序列中的遺傳變異,是靶點(diǎn)識(shí)別中不可缺少的因素,但針對導(dǎo)致特定疾病的致病基因變異的區(qū)分仍有困難,有望從多種組學(xué)數(shù)據(jù)的整合中獲益。 除基因組學(xué)外,轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)可用于確定調(diào)控基因和蛋白質(zhì)水平的致病基因位點(diǎn),并有助于發(fā)現(xiàn)疾病致病基因和途徑;表觀基因組學(xué)和代謝組學(xué)數(shù)據(jù)也可作為GWAS確定變異的功能證據(jù),支持其與疾病的關(guān)聯(lián)和臨床應(yīng)用。 3、計(jì)算輔助方法 由于典型的基于實(shí)驗(yàn)的靶點(diǎn)識(shí)別既費(fèi)力又耗費(fèi)資源,計(jì)算方法已成為實(shí)現(xiàn)高效篩選的替代方法,具有廣闊的應(yīng)用前景。根據(jù)蛋白質(zhì)結(jié)構(gòu)和相關(guān)化合物化學(xué)結(jié)構(gòu)的可用性,藥效篩選、反向?qū)雍徒Y(jié)構(gòu)相似性評估已被用于預(yù)測小分子的新型生物靶標(biāo)。此外,機(jī)器學(xué)習(xí)(包括有監(jiān)督和無監(jiān)督)的發(fā)展正不斷賦能靶點(diǎn)識(shí)別流程。
AI驅(qū)動(dòng)的靶點(diǎn)識(shí)別 近年來,業(yè)界見證了生物醫(yī)學(xué)數(shù)據(jù)的爆炸式增長,覆蓋從基礎(chǔ)研究到臨床試驗(yàn)的多個(gè)階段。大量的數(shù)據(jù)為分析工作帶來了挑戰(zhàn),也為人工智能搭建了舞臺(tái),讓AI在生物標(biāo)記物識(shí)別、適應(yīng)癥優(yōu)先排序、類藥分子設(shè)計(jì)、藥代動(dòng)力學(xué)性質(zhì)預(yù)測、藥物靶點(diǎn)相互作用、臨床試驗(yàn)結(jié)果預(yù)測等方面做出顯著貢獻(xiàn)。 目前,多款人工智能賦能的藥物已經(jīng)進(jìn)入臨床階段,如治療非酒精性脂肪性肝炎的GS-0976、治療實(shí)體瘤的EXS-21546,以及治療特發(fā)性肺纖維化的 ISM001-055——這也是有史以來**款進(jìn)入臨床驗(yàn)證階段的AI賦能新藥,靶向AI發(fā)現(xiàn)的創(chuàng)新靶點(diǎn),擁有AI設(shè)計(jì)的新穎結(jié)構(gòu),現(xiàn)已在I期臨床試驗(yàn)中取得積極初步結(jié)果并開啟II期臨床試驗(yàn)。
1、深度學(xué)習(xí)應(yīng)用于靶點(diǎn)識(shí)別 深度學(xué)習(xí)又稱深度神經(jīng)網(wǎng)絡(luò),由多個(gè)隱藏節(jié)點(diǎn)層組成,通過這些節(jié)點(diǎn)層層遞進(jìn),進(jìn)行數(shù)據(jù)處理和特征提取。近年來,深度學(xué)習(xí)等基于機(jī)器學(xué)習(xí)的算法引起廣泛關(guān)注。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,基于深度學(xué)習(xí)的最新架構(gòu),如生成式對抗網(wǎng)絡(luò)(GANs)、遞歸網(wǎng)絡(luò)(recurrent network)等,已經(jīng)在制藥領(lǐng)域取得了**的成果。 舉例而言,英矽智能于2022年7月宣布,公司與Answer ALS項(xiàng)目合作開展的肌萎縮側(cè)索硬化癥(ALS)靶點(diǎn)識(shí)別項(xiàng)目,成功發(fā)現(xiàn)28個(gè)經(jīng)過驗(yàn)證的潛在靶點(diǎn),其中18個(gè)(64%)在果蠅實(shí)驗(yàn)中被驗(yàn)證有效,涵蓋8個(gè)未經(jīng)報(bào)告過的基因。此次研究中,團(tuán)隊(duì)利用英矽智能自研人工智能平臺(tái)PandaOmics分析了來自公共數(shù)據(jù)集的中樞神經(jīng)系統(tǒng)(CNS)樣本表達(dá)譜和由誘導(dǎo)性多功能干細(xì)胞分化成的運(yùn)動(dòng)神經(jīng)元(diMN)表達(dá)譜,研究結(jié)果發(fā)表于同行評議期刊 Frontiers in Aging Neuroscience。 此外,大型語言模型還有助于通過快速生物醫(yī)學(xué)文本挖掘發(fā)現(xiàn)治療目標(biāo)。基于大型語言模型的聊天功能,如微軟 BioGPT和英矽智能ChatPandaGPT,可以在從數(shù)以百萬計(jì)的出版物中提取的大量文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,進(jìn)而將疾病、基因和生物過程聯(lián)系起來,快速識(shí)別疾病發(fā)生發(fā)展的生物機(jī)制,和潛在藥物靶點(diǎn)、生物標(biāo)志物。然而,大型語言模型通常是在人類生成的文本上進(jìn)行訓(xùn)練的,不一定具有判斷數(shù)據(jù)準(zhǔn)確性的能力,故存在無意中延續(xù)人類偏見的可能。 2、AI生成數(shù)據(jù)集輔助靶點(diǎn)識(shí)別 通過利用人工智能算法,研究人員模擬各種生物場景生成數(shù)據(jù)集,有望賦能罕見病研究等實(shí)驗(yàn)數(shù)據(jù)稀缺的治療領(lǐng)域。然而,模型無法模擬其不理解的復(fù)雜數(shù)據(jù),生成數(shù)據(jù)在不同種人群中的偏差,以及數(shù)據(jù)的質(zhì)量控制和驗(yàn)證,是這一領(lǐng)域?qū)⒚媾R的主要挑戰(zhàn)。
3、靶點(diǎn)選擇:新穎性和可信度的平衡 關(guān)于靶點(diǎn)選擇標(biāo)準(zhǔn),主要考慮的是與疾病的關(guān)聯(lián)、成藥性、毒性,以及新穎性。除實(shí)驗(yàn)方法外,研究人員常采用基于網(wǎng)絡(luò)的分析法捕捉不同基因、蛋白質(zhì)、藥物和其他分子實(shí)體之間的關(guān)系,根據(jù)靶點(diǎn)在網(wǎng)絡(luò)中的位置和連接狀況判斷靶點(diǎn)與疾病的關(guān)聯(lián)。
成藥性即候選分子調(diào)節(jié)特定靶點(diǎn)的能力,受到給藥方式、蛋白質(zhì)定位、類別、結(jié)構(gòu)可用性等因素的影響。此外,研究人員還必須通過評估相關(guān)的細(xì)胞過程、基因本質(zhì)和組織特異性來考慮靶點(diǎn)毒性。 Santos等人的研究(Santos, R. et al. (2017) A comprehensive map of molecular drug targets. Nat. Rev. Drug Discov. 16, 19–34)表明,獲批藥物中的大多數(shù)都靶向高度可信的靶點(diǎn),新穎靶點(diǎn)占比很小。在人工智能輔助的靶點(diǎn)選擇過程中,這一現(xiàn)狀有望得到改變。 基于涉及科學(xué)出版物、基金和臨床試驗(yàn)的海量數(shù)據(jù),人工智能提取支持性和關(guān)聯(lián)性證據(jù),將潛在靶點(diǎn)與適應(yīng)癥聯(lián)系起來,在促進(jìn)新穎靶點(diǎn)發(fā)現(xiàn)的同時(shí)推動(dòng)藥物重定向(即“老藥新用”),實(shí)現(xiàn)降本增效。
總結(jié)與展望 在廣袤的化學(xué)空間和海量的“可成藥靶點(diǎn)”中,人類已經(jīng)完成探索的部分少之又少,產(chǎn)學(xué)研界迫切需要更高效的靶點(diǎn)識(shí)別策略。 隨著越來越多AI發(fā)現(xiàn)的靶點(diǎn)在臨床前乃至臨床試驗(yàn)中得到驗(yàn)證,人工智能有望賦能機(jī)制復(fù)雜的疾病研究,如癌癥、神經(jīng)退行性疾病和自身免疫性疾病等。此外,面對突發(fā)性傳染病的爆發(fā),人工智能有望通過快速確定潛在藥物靶點(diǎn),為抗病毒療法開發(fā)提供啟迪。該文章也得到了英矽智能聯(lián)合首席執(zhí)行官任峰博士和聯(lián)合創(chuàng)始人兼中東團(tuán)隊(duì)負(fù)責(zé)人Alex Aliper博士的指導(dǎo),以及香港團(tuán)隊(duì)Xi Long博士和Bonnie Hei Man Liu博士對圖表說明和文獻(xiàn)綜述的貢獻(xiàn)。 本網(wǎng)站所有轉(zhuǎn)載文章系出于傳遞更多信息之目的,轉(zhuǎn)載內(nèi)容不代表本站立場。不希望被轉(zhuǎn)載的媒體或個(gè)人可與我們聯(lián)系,我們將立即進(jìn)行刪除處理。 |
|