日前,廣東普言生物科技有限公司(以下簡稱“普言生物”)榮獲第九屆“創(chuàng)客中國”廣東省中小企業(yè)創(chuàng)新創(chuàng)業(yè)大賽暨第八屆“創(chuàng)客廣東”大賽生物醫(yī)藥與健康領(lǐng)域?qū)n}決賽銅獎;另8月13日,普言生物也獲得2024年第十三屆中國創(chuàng)新創(chuàng)業(yè)大賽(廣東·中山賽區(qū))暨第八屆中山市科技創(chuàng)新創(chuàng)業(yè)大賽決賽三等獎。兩次參賽都位于成長組,普言生物作為成立不足兩年的年輕生物技術(shù)公司,與眾多成立數(shù)年的企業(yè)競爭并獲得獎項是對普言生物階段性發(fā)展的認(rèn)可。
“普言生物是一家聚焦合成生物學(xué)技術(shù)創(chuàng)新與工業(yè)化,開發(fā)重組功能蛋白的科技公司。我們在不到2年時間內(nèi)完成10多種功能蛋白的研發(fā)及量產(chǎn),并搭建了中試平臺和生物工廠,我們高效的研發(fā)能力和綠色低耗的產(chǎn)線可以為客戶提供增值服務(wù)?!逼昭陨顲EO介紹說。據(jù)報道,普言生物已成功構(gòu)建了一個以重組功能蛋白矩陣為基礎(chǔ)的研發(fā)與生物制造平臺,開發(fā)了涵蓋多型重組人源化膠原蛋白(I、III、IV、VII、XVII型)、纖連蛋白、彈性蛋白、血清白蛋白、金屬硫蛋白、絲聚蛋白等10余種高性能功能蛋白。“人工智能(AI)技術(shù)的持續(xù)投入與應(yīng)用,使我們在蛋白設(shè)計和功效上獲得更多優(yōu)勢?!逼昭陨顲EO說到。
蛋白質(zhì)是生命的基礎(chǔ),一般由大于50個、平均200-400個氨基酸排列組合,并折疊成有特定功能、活性的結(jié)構(gòu)。以100個氨基酸組成的蛋白質(zhì)為例,其組合可能性有10的130次方(10^130),遠(yuǎn)超宇宙粒子的總數(shù)(10的80次方(10^8))。更重要的是,在特定序列基礎(chǔ)上的蛋白三維結(jié)構(gòu)計算預(yù)測更是紛繁復(fù)雜。過去,傳統(tǒng)蛋白質(zhì)序列截取與設(shè)計嚴(yán)重依賴人工篩選,過程極其低效。近幾年,人工智能(AI)技術(shù)的發(fā)展賦予蛋白設(shè)計更廣泛的應(yīng)用潛力。這些模型對現(xiàn)有蛋白序列進(jìn)行深度學(xué)習(xí),并通過算法對數(shù)據(jù)及模型持續(xù)優(yōu)化、迭代,挖掘并生成具有特定功能、活性的序列及其與細(xì)胞系統(tǒng)的潛在互作關(guān)系,極大提升了蛋白設(shè)計的效率與產(chǎn)業(yè)化能力。
“基于AI和蛋白質(zhì)的特點(diǎn),我們從幾方面實現(xiàn)AI的蛋白質(zhì)設(shè)計應(yīng)用。首先,從各大數(shù)據(jù)中心收集、歸納和分類,構(gòu)建得到數(shù)據(jù)量達(dá)10^5-10^9的蛋白質(zhì)序列、結(jié)構(gòu)、功能、互作網(wǎng)絡(luò)等數(shù)據(jù)庫,以及各種特定蛋白質(zhì)(如膠原蛋白)的數(shù)據(jù)庫。我們建立的大規(guī)模、精細(xì)化、高精度、高覆蓋的數(shù)據(jù)庫,為AI模型的高效、高質(zhì)量預(yù)訓(xùn)練提供了關(guān)鍵基礎(chǔ)。第二,我們根據(jù)開發(fā)需求構(gòu)建了兩個基本的AI模型:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多模態(tài)(multimodal)、多軌(multitrack)深度學(xué)習(xí)模型,可以有效理解蛋白序列、理化特性與功能的高維內(nèi)在關(guān)系,實現(xiàn)對某一特定蛋白進(jìn)行每天超億級別序列的超精確計算分析;此外,基于transformer的大規(guī)模語言模型,利用10^10級別的超參數(shù)和10^8級別的訓(xùn)練步驟,并引入對抗網(wǎng)絡(luò)以提高其生成效率及準(zhǔn)確性,實現(xiàn)對百億級別蛋白數(shù)據(jù)進(jìn)行計算分析。第三,我們采用更適于生物學(xué)的指標(biāo),如精確率、召回率、F1分?jǐn)?shù)、準(zhǔn)確率、Matthews相關(guān)系數(shù)(MCC)等,提高AI模型訓(xùn)練的有效性、高效性以及準(zhǔn)確性,實現(xiàn)更低的算力獲得更高的算量。第四,基于我們建立的合成生物學(xué)技術(shù)平臺,實現(xiàn)AI與合成生物學(xué)技術(shù)融合,可以對計算預(yù)測的蛋白質(zhì)進(jìn)行快速合成、高通量篩選和評估,并形成具有精細(xì)注釋的實體數(shù)據(jù),實現(xiàn)對數(shù)據(jù)庫和模型訓(xùn)練的更新迭代,使AI模型具有強(qiáng)的自我進(jìn)化能力,從而獲得高活性、高表達(dá)量及高穩(wěn)定性的功能蛋白?!逼昭陨顲EO介紹道。
“目前,模型所預(yù)測的蛋白99%以上有活性,而且有一半以上在表達(dá)量、活性、穩(wěn)定性等不同屬性上有提高。這極大加速了我們高質(zhì)量蛋白產(chǎn)品的研發(fā),并保持我們產(chǎn)品的創(chuàng)新和安全低耗。以重組人源化膠原蛋白為例,我們通過大規(guī)模語言模型進(jìn)行百億級別序列篩選,生成的序列經(jīng)過實驗驗證其蛋白功能達(dá)到+673%,相比傳統(tǒng)重組膠原蛋白的功能提升約10倍以上。”普言生物CEO進(jìn)一步補(bǔ)充道。
圖:數(shù)據(jù)與深度學(xué)習(xí)輔助蛋白質(zhì)高效設(shè)計
普言生物將繼續(xù)致力于人工智能(AI)技術(shù)在合成生物領(lǐng)域的應(yīng)用發(fā)展,推動算法模型與工程進(jìn)一步融合,并探索更多蛋白設(shè)計的可能性與應(yīng)用場景,從而滿足更廣泛的個性化產(chǎn)業(yè)應(yīng)用需求,為合成生物產(chǎn)業(yè)挖掘新的價值點(diǎn)。
轉(zhuǎn)自:中國網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀