打造中國版ChatGPT 蹄疾步穩(wěn)更需放眼量


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時間:2023-04-17





  近來,ChatGPT以生動豐富的對話形式、集成完備的應(yīng)用功能和迅速拓展的領(lǐng)域延伸,不僅再次將人工智能產(chǎn)業(yè)“帶火出圈”,更是對黨的二十大報告中“新一輪科技革命和產(chǎn)業(yè)變革深入發(fā)展,我國發(fā)展面臨新的戰(zhàn)略機(jī)遇”的重要論斷作出的具象說明。


  黨的二十大報告中提出“建設(shè)現(xiàn)代化產(chǎn)業(yè)體系,推進(jìn)新型工業(yè)化,加快建設(shè)數(shù)字中國”。面對ChatGPT的領(lǐng)先優(yōu)勢與美國的迅速跟進(jìn)封鎖,我們應(yīng)當(dāng)知難而進(jìn)、迎難而上。在頂層設(shè)計上,科技部部長王志剛在全國兩會“部長通道”發(fā)言中,從技術(shù)應(yīng)用角度和倫理法律角度清晰闡述了國家布局;在產(chǎn)業(yè)發(fā)展上,以百度“文心一言”為代表,國內(nèi)各大互聯(lián)網(wǎng)企業(yè)均已推出或正在研發(fā)“類ChatGPT”中文對話模型。相關(guān)科技成果及布局令國人備受鼓舞,但我們?nèi)砸曄嚓P(guān)產(chǎn)業(yè)發(fā)展差距,冷靜分析技術(shù)落地阻力。


  從業(yè)內(nèi)人士的角度來看,當(dāng)前國內(nèi)外語言大模型差距主要體現(xiàn)在三方面:算力、數(shù)據(jù)、算法。


  在算力方面,ChatGPT使用Microsoft Azure的超級計算基礎(chǔ)設(shè)施訓(xùn)練,其對高性能算力的需求令人咋舌。國內(nèi)華為等企業(yè)前瞻布局,已有基于昇騰910 AI芯片的Atlas計算卡可實(shí)現(xiàn)部分替代,但充足可靠的算力仍是我們當(dāng)前發(fā)展大模型所缺乏的。一方面國產(chǎn)替代集中于中低端計算卡,僅能承接中小模型的訓(xùn)練,高端計算卡暫時無法替代;另一方面自主計算生態(tài)稚嫩,研究端和生產(chǎn)端的從業(yè)人員缺乏替換動力。沒有更多的使用場景與更大的使用頻率,自主算力就不會有更快的進(jìn)步速度。


  在數(shù)據(jù)方面,國內(nèi)規(guī)模龐大的市場與相對寬松的環(huán)境像是“黑土地”,一直為國內(nèi)互聯(lián)網(wǎng)企業(yè)迅速發(fā)展提供豐富的養(yǎng)分。這也促使“數(shù)據(jù)規(guī)模決定市場占有”發(fā)展思路的形成。而現(xiàn)在,ChatGPT與人類專家交互的調(diào)優(yōu)方法,極大提高了數(shù)據(jù)質(zhì)量所占權(quán)重。高質(zhì)量數(shù)據(jù)的數(shù)量與增速對我們?nèi)〉卯a(chǎn)業(yè)領(lǐng)先優(yōu)勢至關(guān)重要,但現(xiàn)狀令人憂心。大模型的性能提升極大地依賴數(shù)據(jù)的“投喂”,但現(xiàn)有中文標(biāo)注信息量與英文標(biāo)注信息量有較大的差距。同時,現(xiàn)有數(shù)據(jù)標(biāo)注公司大多是低成本、低附加值的“內(nèi)卷”思路,缺乏行業(yè)共識與標(biāo)準(zhǔn),影響高質(zhì)量標(biāo)注數(shù)據(jù)發(fā)展。


  在算法方面,從技術(shù)封鎖和商業(yè)盈利兩方面考量,未來業(yè)內(nèi)算法交流將更受限制,這對我國的人才儲備和質(zhì)量提出了考驗(yàn)。根據(jù)斯坦福大學(xué)《2023 AI指數(shù)報告》,2021年發(fā)表AI論文總量世界前10機(jī)構(gòu)中,我國共占9席,充分說明我國AI科研人員規(guī)模可觀。假以時日,相信國內(nèi)各大企業(yè)一定可以復(fù)現(xiàn)GPT-3.5或GPT-4。但更令人擔(dān)心的是算法原創(chuàng)性,即我們是否有能力提出全新的技術(shù)路徑??紤]到AI在敏感領(lǐng)域的顛覆性應(yīng)用,更為領(lǐng)先的算法恐怕無從參考。到那時,我們有沒有能力提出自主創(chuàng)新的算法模型呢?


  因此,記者嘗試用“蹄疾步穩(wěn)更需放眼量”來概括對于推進(jìn)國產(chǎn)ChatGPT建設(shè)的建議。


  首先,算力升級需蹄疾。加快推進(jìn)半導(dǎo)體產(chǎn)業(yè)國產(chǎn)替代進(jìn)程,重新校對研發(fā)時間表。產(chǎn)業(yè)發(fā)展有其內(nèi)在規(guī)律,我們要用科學(xué)的態(tài)度對待科學(xué),但也要發(fā)揮“一萬年太久,只爭朝夕”的主觀能動性,為核心科技的自主可控爭取主動。一方面是加快軟硬件計算設(shè)施的國產(chǎn)替代進(jìn)程,只有增加國產(chǎn)設(shè)備的使用場景并提升使用頻率,我們才能更快形成獨(dú)立自主的研發(fā)與應(yīng)用生態(tài),從而實(shí)現(xiàn)軟硬件發(fā)展一體化推進(jìn);另一方面是加快算力共享平臺建設(shè),在高性能算力方面健全新型舉國體制,搭建算力資源協(xié)作平臺與機(jī)制,從而為國產(chǎn)替代贏得時間與空間。


  其次,政策規(guī)范需步穩(wěn)。當(dāng)前輿論集中于技術(shù)應(yīng)用層面,但政策思考應(yīng)有前瞻性,信息使用與保護(hù)的相關(guān)規(guī)范應(yīng)提早規(guī)劃。伴隨AI大模型的迭代升級,深層偽造技術(shù)用于違法犯罪將更加棘手。因此,政府各部門應(yīng)當(dāng)通力合作、統(tǒng)籌協(xié)調(diào),對AI技術(shù)的研發(fā)與應(yīng)用綜合掌握,從而貫徹落實(shí)科技發(fā)展以人民為中心的理念,凸顯科技“人性之善”。


  最后,技術(shù)創(chuàng)新放眼量。AI對我國高質(zhì)量發(fā)展的重要性不言自明,但要警惕“一有熱點(diǎn)撲上去,一遇冷作鳥獸散”的現(xiàn)象,因?yàn)檎嬲母偁幵谟跓狒[過后仍能坐穩(wěn)“冷板凳”,于無聲處聽驚雷。限于生成模型的原理,ChatGPT的答案中存在大量虛假信息,在學(xué)術(shù)文獻(xiàn)引用和網(wǎng)址推薦上尤為突出,顯示出極大的誤導(dǎo)性。這提醒我們不能僅僅跟隨ChatGPT的既有套路,更要對國產(chǎn)對話大模型發(fā)展路徑實(shí)現(xiàn)自主可控?!懊^過河”是發(fā)展經(jīng)驗(yàn),但隨著科技競爭進(jìn)入“深水區(qū)”,還能有“石頭”給我們摸嗎?基礎(chǔ)科學(xué)底層技術(shù)的積累突破才是我們長期競爭的最大底氣,這拼的是政策制定者的前瞻決策、科研工作者的潛精研思、產(chǎn)業(yè)從業(yè)者的凝心聚力。


  “人生萬事須自為,跬步江山即寥廓”,國家支持,產(chǎn)業(yè)積極,社會期待,相信我們能夠團(tuán)結(jié)一切可以團(tuán)結(jié)的力量,共同實(shí)現(xiàn)國產(chǎn)ChatGPT的破局,為實(shí)現(xiàn)高水平科技自立自強(qiáng)添磚加瓦。(記者 徐勇 實(shí)習(xí)生 李曉東)


  轉(zhuǎn)自:人民郵電報

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

聚焦發(fā)展實(shí)體經(jīng)濟(jì) 央企投資持續(xù)提速 聚焦發(fā)展實(shí)體經(jīng)濟(jì) 央企投資持續(xù)提速

熱點(diǎn)新聞

熱點(diǎn)輿情

?

微信公眾號

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964