AI對話機器人ChatGPT的走紅,讓“大模型”的熱度從學術(shù)界、產(chǎn)業(yè)界一路燒到了大眾媒體。信息顯示,ChatGPT是一款由大型語言模型驅(qū)動的聊天機器人,在它背后起作用的是OpenAI最強大的大型語言模型GPT-3,參數(shù)量高達1750億。
大模型的崛起,也為AI技術(shù)的地基——芯片帶來了重要的商機與嚴峻的技術(shù)挑戰(zhàn)。據(jù)Lambda實驗室測算,如果采用英偉達V100 GPU和當時最便宜的云服務(wù)進行計算,GPT-3訓練一次需要355個GPU年(一塊GPU運行355年的運算量)、花費460萬美元。大模型需要怎樣的AI芯片,AI芯片企業(yè)又該如何應(yīng)對?帶著這樣的疑問,記者采訪了有關(guān)專家和企業(yè)家。
算力需求:對于AI芯片的要求全面拉升
4年的時間、1500倍的參數(shù)量提升,大型語言模型展現(xiàn)出強勁的擴張態(tài)勢。2018年,OpenAI推出第一代生成式預(yù)訓練語言模型GPT-1,擁有1.17億個參數(shù)。2019年推出的GPT-2擁有12億參數(shù),是GPT-1的10倍多。一年后面世的GPT-3,參數(shù)量達到1750億個,是GPT-2的100多倍,預(yù)訓練數(shù)據(jù)量高達45TB。ChatGPT正是基于GPT-3.5——一個基于GPT-3的微調(diào)版本。
與參數(shù)量一起飆漲的,是大模型的算力需求。燧原科技創(chuàng)始人、董事長兼CEO趙立東向《中國電子報》表示,以ChatGPT為代表的生成式AI模型為了實現(xiàn)高質(zhì)量的內(nèi)容生成,具備兩大特性:參數(shù)規(guī)模巨大的模型、海量的訓練數(shù)據(jù)集。因此,大模型在底層算子支撐、系統(tǒng)架構(gòu)方案、軟件生態(tài)支持方面都和原先的決策式AI模型有著顯著的區(qū)別,需要芯片廠商打造更加領(lǐng)先的系統(tǒng)級軟硬件方案,并在技術(shù)和產(chǎn)品層面打破原有的路線與壁壘。
“從算力芯片角度,主要有三方面的需求:一是分布式計算能力,包括數(shù)據(jù)并行、模型并行、流水并行等分布式計算方案,計算效率尤其關(guān)鍵。二是大容量高帶寬的內(nèi)存方案,在每個AI芯片內(nèi)部有效提升數(shù)據(jù)處理能力和算力利用率,結(jié)合HBM以及CXL等新型存儲技術(shù),進一步提升本地存儲能力和算力利用率。三是更高的單芯片計算能力,以降低整體系統(tǒng)復(fù)雜度,并降低TCO成本?!壁w立東說。
昆侖芯科技負責人也向記者表示,伴隨著ChatGPT的迭代,大模型算法對算力的要求不斷提高,而算力的核心就是人工智能芯片?!按竽P蛯τ嬎愕囊笾饕w現(xiàn)在三個方面,一是算力,二是互聯(lián),三是成本。大模型的熱潮也將加速AI芯片技術(shù)的創(chuàng)新和進步,包括芯片架構(gòu)、算法優(yōu)化、功耗控制等方面的提升。AI芯片公司可以在這些方面進行研發(fā)和創(chuàng)新,不斷提高產(chǎn)品競爭力?!?/p>
除了在已有的AI芯片路徑持續(xù)迭代調(diào)優(yōu),獲得更優(yōu)的算力、效率、功耗、成本,大模型強烈的高算力需求,也呼喚芯片電路與架構(gòu)層面的進一步創(chuàng)新。北京大學集成電路學院研究員賈天宇向《中國電子報》記者指出,大模型技術(shù)的出現(xiàn)和普及,將進一步推動AI芯片的發(fā)展,拉升多方應(yīng)用產(chǎn)業(yè)對于AI芯片的需求,對于提升AI芯片的重要性和不可或缺性有著積極的意義。但同時也應(yīng)認識到,支持大模型計算的AI芯片算力需求高、設(shè)計復(fù)雜度高,其設(shè)計要求和門檻也隨之提升。
“由于傳統(tǒng)芯片技術(shù)發(fā)展的限制,當前芯片設(shè)計的電路與架構(gòu)面臨著存算力瓶頸、能效瓶頸、設(shè)計復(fù)雜度瓶頸等多方面挑戰(zhàn)。如何解決算力需求和芯片設(shè)計瓶頸之間的矛盾,還需要多方的創(chuàng)新和技術(shù)進展?!辟Z天宇說。
技術(shù)路徑:通用與定制的平衡
在AI芯片的發(fā)展過程中,通用性和定制化像是兩個互相拉扯的作用力,衍生出一系列的芯片架構(gòu)。其中,GPU和ASIC分別是通用性和定制化的代表架構(gòu),也有著各自的優(yōu)勢和局限性。
“GPU架構(gòu)提供了大量數(shù)據(jù)并行結(jié)構(gòu),因此能夠提供大量的AI并行計算,適用于AI訓練等。ASIC等定制化AI芯片針對特定的應(yīng)用場景進行芯片優(yōu)化,能夠取得更高的計算能效,但通用性相對較弱?!辟Z天宇表示。
好在,隨著芯片技術(shù)的發(fā)展,通用性與定制化已不再壁壘森嚴。一方面,英偉達在GPU架構(gòu)中引入了Tensor Core(張量計算核心),一種專門針對深度學習應(yīng)用而設(shè)計的專用ASIC單元,使GPU更加適合深度學習。另一方面,定制化芯片也逐步增加了通用計算單元,并引入可編程或部分可編程的架構(gòu),增強芯片的場景覆蓋能力。
“過去被認為只具備專用性的ASIC或DSA(領(lǐng)域?qū)S眉軜?gòu)),現(xiàn)在不僅含有用于AI加速計算的專用單元,還含有與英偉達GPU中CUDA Core類似的通用計算單元,同樣可以實現(xiàn)對各種指令的處理。因此,無論是GPU、ASIC,還是DSA架構(gòu),云端AI芯片企業(yè)在架構(gòu)設(shè)計中需要關(guān)注的是通用和專用計算單元的搭配,以便應(yīng)對AI計算持續(xù)演變帶來的挑戰(zhàn)?!崩鲂究萍枷嚓P(guān)人員向記者表示。
“鑒于大模型對于大算力的顯著需求,以及模型訓練算子的多樣性,具有大算力、通用性的芯片將是大算力應(yīng)用的首選。在現(xiàn)存的技術(shù)方案中,GPU是能夠提供算力和開發(fā)生態(tài)的選擇。然而,由于GPU的功耗過高,類GPU架構(gòu)的定制化大算力AI芯片也將存在市場,滿足對于芯片計算能效的提升需求?!辟Z天宇指出。
而通用與定制的“配比”,要根據(jù)具體場景設(shè)計。昆侖芯科技相關(guān)人員表示,在通用性、易用性和性能之間實現(xiàn)平衡,需要在實際設(shè)計中結(jié)合需求。除了單一技術(shù)或者算力指標,更要注重產(chǎn)品的綜合競爭力是否均衡。百度的AI應(yīng)用場景,為昆侖芯提供了驗證和調(diào)優(yōu)機會。就大模型而言,昆侖芯在產(chǎn)品定義上已經(jīng)做了布局,昆侖芯2代AI芯片相較昆侖芯第1代產(chǎn)品大幅優(yōu)化了算力、互聯(lián)和性能,在百度內(nèi)外部的大模型場景中都有落地,昆侖芯在研的下一代產(chǎn)品將為大模型和AIGC等應(yīng)用提供更佳的性能體驗。
“硬件和場景是雙輪驅(qū)動的,場景催生新的技術(shù)方案,新的技術(shù)促使場景更好地發(fā)展。大模型作為一個趨勢場景,其需求定義清楚了,設(shè)計和實現(xiàn)技術(shù)就會水到渠成?!崩鲂究萍枷嚓P(guān)人員告訴記者。
另外,無論是通用芯片還是定制芯片,抑或是通用、專用計算單元兼而有之,設(shè)計環(huán)節(jié)之后的制造、封裝環(huán)節(jié),也將作用于AI芯片的性能提升。
“無論GPU還是定制化AI芯片路線,Chiplet、3D堆疊等先進集成與封裝技術(shù)將成為進一步提升大模型計算能力的重要技術(shù)手段,也將在未來AI芯片發(fā)展中起到重要作用。”賈天宇表示。
國內(nèi)企業(yè):需進一步增強軟件及系統(tǒng)能力
雖然ChatGPT還沒有進入盈利階段,但英偉達已經(jīng)成為第一波吃到紅利的企業(yè)。從2023年第一個美股交易日至今(截稿前最后一個交易日2月24日),英偉達的股價增幅超過60%,為處于下行周期的半導(dǎo)體產(chǎn)業(yè)增添了一絲亮色。在北京時間2月23日凌晨的財報發(fā)布中,英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,從初創(chuàng)公司到大型企業(yè),對于生成式AI的多功能性與能力的興趣越來越濃厚。英偉達將幫助客戶從生成式AI和大型語言模型技術(shù)的突破中獲取優(yōu)勢。
英偉達在AI芯片的先發(fā)優(yōu)勢和占比優(yōu)勢,固然有硬件性能的原因,但更關(guān)鍵的是軟件生態(tài)的加持。在21世紀初,GPU的并行計算能力引起了學術(shù)界和產(chǎn)業(yè)界的關(guān)注。但是,開發(fā)者想要調(diào)用英偉達GPU的計算能力進行圖形處理以外的任務(wù),必須編寫大量的底層語言代碼,這對于習慣高級語言的程序員極其不便。2006年,英偉達推出CUDA平臺,支持開發(fā)者用熟悉的高級程序語言進行編程,靈活調(diào)用GPU的算力。自此,GPU的使用范圍不再局限于顯卡,而是擴展到所有適合并行計算的領(lǐng)域。GPU與CUDA組成的軟硬件系統(tǒng),形成了英偉達的產(chǎn)品壁壘。
近年來,國內(nèi)AI芯片企業(yè)在架構(gòu)創(chuàng)新、算力性能、平臺方案等領(lǐng)域涌現(xiàn)出一系列成果,但仍然需要在軟件、系統(tǒng)和生態(tài)層面進一步向國際領(lǐng)先企業(yè)看齊。趙立東表示,針對大模型對于AI芯片的需求,芯片廠商一方面通過拆解大模型的系統(tǒng)級需求,快速迭代下一代芯片,從底層提升性能和支持效率。另一方面,要基于既有的芯片打造系統(tǒng)級方案,通過軟件升級解決大模型加速遇到的內(nèi)存容量小、通信占比高等核心痛點問題。
“要對標國際領(lǐng)先的AI芯片廠商,需要在三個層面開發(fā)優(yōu)化:一是芯片升級,在算力、內(nèi)存、微架構(gòu)等層面針對大模型計算做優(yōu)化;二是軟件升級,從傳統(tǒng)的單卡以及以單機多卡為主的支持能力拓展至萬卡級別大集群支持,有效提供面向大模型支持的分布式計算、混合并行、內(nèi)存優(yōu)化等整體軟件方案;三是系統(tǒng)方案,以AI芯片為核心,結(jié)合計算、存儲、網(wǎng)絡(luò)打造深度優(yōu)化的系統(tǒng)級方案,面向大模型提供極致的性能和成本優(yōu)勢?!壁w立東說。
據(jù)介紹,燧原科技已經(jīng)基于千卡訓練集群進行大模型訓練,并將推理產(chǎn)品通過云服務(wù)商,為內(nèi)容生成模型開發(fā)商提供算力支撐?;谙到y(tǒng)級大集群大模型,燧原將持續(xù)創(chuàng)新迭代,重點聚焦生態(tài)建設(shè),滿足應(yīng)用開發(fā)者對AI算力的強勁需求。
昆侖芯科技相關(guān)人員也表示,具體到軟件生態(tài),AI算法和應(yīng)用開發(fā)者在構(gòu)建AI應(yīng)用和業(yè)務(wù)的過程中,需要一套成熟的編程語言,以及完善的軟件工具集來快速迭代開發(fā)任務(wù)。昆侖芯SDK可以提供從底層驅(qū)動環(huán)境到上層模型轉(zhuǎn)換等全棧的軟件工具,已經(jīng)適配百度飛槳、PyTorch、TensorFlow等主流框架和服務(wù)器,逐漸完善生態(tài)建設(shè)?!耙獙崿F(xiàn)像OpenAI的ChatGPT這樣的大規(guī)模深度學習模型,需要大量的數(shù)據(jù)和算法優(yōu)化,以及相關(guān)領(lǐng)域的專業(yè)知識。因此,要更好地實現(xiàn)ChatGPT的商用落地,需要相應(yīng)的技術(shù)團隊和研究機構(gòu),與AI芯片企業(yè)協(xié)同推進?!?/p>
轉(zhuǎn)自:中國電子報
【版權(quán)及免責聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀