超長文本是AI大模型的能力突破口嗎?


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2024-03-29





  近日,能“一口氣讀完20萬字小說”的AI大模型應(yīng)用Kimi再次為國內(nèi)AI產(chǎn)業(yè)添了一把火。業(yè)內(nèi)認為,國產(chǎn)大模型能力提升或成今年國內(nèi)AI領(lǐng)域最核心的主線。超長上下文是主要突破口嗎?大模型還將如何提升能力?


  在3月24日舉行的2024全球開發(fā)者先鋒大會(2024 GDC)大模型前沿論壇上,阿里通義、騰訊混元、稀宇科技MiniMax ABAB、商湯商量、書生·浦語五個大模型的技術(shù)負責(zé)人罕見“同框”, 共同探討未來大模型的技術(shù)演進方向。


  超長上下文成國產(chǎn)大模型新競逐焦點


  3月18日,月之暗面公司宣布Kimi智能助手啟動200萬字無損上下文內(nèi)測。2023年10月,Kimi初次亮相時其處理能力還只有20萬字。也就是說,Kimi只用了不到半年,就將上下文處理能力提升了一個數(shù)量級。


  月之暗面介紹稱,大模型無損上下文長度的數(shù)量級提升,能進一步打開對AI應(yīng)用場景的想象力,包括完整代碼庫的分析理解、可以自主幫人類完成多步驟復(fù)雜任務(wù)的智能體、不會遺忘關(guān)鍵信息的終身助理、真正統(tǒng)一架構(gòu)的多模態(tài)模型等。


  消息發(fā)布后,Kimi訪問量激增,一度無法正常使用。連日來,Kimi還帶“紅”一眾A股“Kimi概念股”。以超長上下文處理能力為突破口,Kimi成為國內(nèi)出現(xiàn)“百模大戰(zhàn)”以來為數(shù)不多的“破圈者”。


  Kimi迅速走紅后,阿里宣布“通義千問”將向所有人免費開放1000萬字的長文檔處理功能,可以幫助用戶快速讀研報、分析財報、讀科研論文、研判案情、讀醫(yī)療報告、解讀法律條文、分析考試成績、總結(jié)深度文章。360智腦也宣布正式內(nèi)測500萬字長文本處理功能,該功能將入駐360AI瀏覽器。


  事實上,從2023年下半年開始,大模型支持的上下文長度就快速增長,從早期GPT-3的2K(存儲容量單位),到今年3月提升到1M。


  “更長的上下文意味著什么,是我們需要思考的?!鄙虾H斯ぶ悄軐嶒炇沂紫茖W(xué)家林達華介紹說,2K的上下文能力支持日常聊天、知識問答、短文理解;32K支持?jǐn)M人對話、長文分析、代碼解釋及編寫;100K支持處理長報告及短篇小說、智能體長時間交互、簡單的軟件及網(wǎng)站構(gòu)建;1M支持處理長篇小說、直接注入小型知識庫、項目級代碼分析與構(gòu)建。


  長文本能力仍存局限性


  林達華認為,直接使用上下文面臨兩個基本問題:一是超長上下文的推理計算代價高昂;二是上下文本身對信息不會進行壓縮,不能直接捕捉其中的深層知識和規(guī)律。


  上海人工智能實驗室青年科學(xué)家陳愷認為,目前業(yè)內(nèi)對于長文本的評測方式是“大海撈針”,也就是從超長文本中找出一個信息,很多模型在這樣的測試中能做到接近100%的準(zhǔn)確率。


  陳愷說:“但如果把模型換到更接近真實的使用場景里,需要模型找一些碎片化信息并把它們聯(lián)系起來,模型的能力和準(zhǔn)確率會大幅下降。這和其他模型的應(yīng)用能力類似,業(yè)內(nèi)要繼續(xù)關(guān)注模型的泛化性和實際應(yīng)用能力?!?/p>


  此外,業(yè)內(nèi)也有聲音質(zhì)疑超長上下文的技術(shù)水平和價值。月之暗面方面稱,公司為了實現(xiàn)更好的長窗口無損壓縮性能,研發(fā)和技術(shù)團隊從模型預(yù)訓(xùn)練到對齊、推理環(huán)節(jié)均進行了原生的重新設(shè)計和開發(fā),不走“滑動窗口”“降采樣”等技術(shù)捷徑,攻克了很多底層技術(shù)難點。


  達觀數(shù)據(jù)副總裁王文廣接受上海證券報記者采訪表示:“從創(chuàng)新點來看,Kimi顯示出了其在無損閱讀方面的巨大潛力,超長文本上下文的輸入為內(nèi)容創(chuàng)作和整理提供了技術(shù)基礎(chǔ)。但從技術(shù)本身來說,這只是個噱頭,既沒有對模型能力提升帶來什么幫助,本身也沒什么難度?!?/p>


  達觀數(shù)據(jù)是專注智能文本處理的國家級專精特新“小巨人”企業(yè)。2023年7月,達觀數(shù)據(jù)對外發(fā)布“曹植”大語言模型應(yīng)用公測版,“曹植”具有長文本、多語言、垂直化三大特點。


  王文廣說:“從Kimi的走紅來看,接下來‘百模大戰(zhàn)’會更加喧囂,很快會有大模型廠商推出具有千萬字甚至上億字處理能力的模型。未來,大模型領(lǐng)域可能還會出現(xiàn)有噱頭、技術(shù)難度不高的宣傳點。但真正的產(chǎn)業(yè)應(yīng)用,還是要靜下心來,一步一個腳印提升模型能力,一點一滴來解決產(chǎn)業(yè)上的問題?!?/p>


  五大模型“主創(chuàng)”共論技術(shù)演進方向


  除了上下文長度,國產(chǎn)大模型還有哪些能力提升路徑?下一步如何更大限度地發(fā)揮“模”力?


  阿里通義算法負責(zé)人周暢認為,合成數(shù)據(jù)會在未來大模型訓(xùn)練中扮演更重要的角色。合成數(shù)據(jù)是一種模仿真實世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù)。


  “通過使用合成數(shù)據(jù),語言模型和多模態(tài)模型有望僅靠‘自己’便獲得能力提升。升級數(shù)據(jù)處理能力將是提升模型研發(fā)水平的重要方向之一。”周暢說。


  對于如何讓模型本身深度參與迭代,陳愷表示,參照研究人員研發(fā)中需具備的能力,如果模型具備較強的數(shù)學(xué)能力、編程能力和頭腦風(fēng)暴能力,并很好地將幾種能力結(jié)合起來,就能向“自我提升”的臨界點邁進。


  騰訊混元大模型算法負責(zé)人康戰(zhàn)輝提到,目前,頭部廠商的模型架構(gòu)都在轉(zhuǎn)向混合專家模型(Mixture of Experts,MoE)。混合專家模型即將大型模型拆分為多個較小的專家模型,每個專家模型負責(zé)處理特定的任務(wù)或數(shù)據(jù)子集。


  在康戰(zhàn)輝看來,未來,參數(shù)量較小的模型可能在應(yīng)用端表現(xiàn)出更高效率和“性價比”,全模態(tài)輸入輸出的大模型將是下一階段研究目標(biāo)。


  大模型的技術(shù)演進一方面旨在進一步提升能力,另一個重要方向是如何在現(xiàn)實場景中更好用。


  稀宇科技技術(shù)副總裁安德森認為,人完成各種各樣的工作時,并不是僅靠自己的大腦,而是靠大腦加上各種外部的工具。所以,大模型在落地應(yīng)用的時候也要考慮把大模型和其他工具,包括其他模型結(jié)合在一起,使其更加便利。


  商湯科技大裝置執(zhí)行總監(jiān)成功表示,大模型的基礎(chǔ)能力已在很多場景落地,但在實踐中,模型的推理能力,包括規(guī)劃執(zhí)行能力等仍需重點突破。同時,他強調(diào)關(guān)注效率和成本,模型能以更低成本、更快觸達應(yīng)用始終是技術(shù)發(fā)展的重要目標(biāo)。(劉怡鶴)


  轉(zhuǎn)自:上海證券報

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964