當前位置首頁 > 新聞 > 產(chǎn)經(jīng)分析 >

人工智能大模型需要怎樣的芯片？

中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng) 時間：2023-03-08

　　AI對話機器人ChatGPT的走紅，讓“大模型”的熱度從學術(shù)界、產(chǎn)業(yè)界一路燒到了大眾媒體。信息顯示，ChatGPT是一款由大型語言模型驅(qū)動的聊天機器人，在它背后起作用的是OpenAI最強大的大型語言模型GPT-3，參數(shù)量高達1750億。

　　大模型的崛起，也為AI技術(shù)的地基——芯片帶來了重要的商機與嚴峻的技術(shù)挑戰(zhàn)。據(jù)Lambda實驗室測算，如果采用英偉達V100 GPU和當時最便宜的云服務(wù)進行計算，GPT-3訓練一次需要355個GPU年（一塊GPU運行355年的運算量）、花費460萬美元。大模型需要怎樣的AI芯片，AI芯片企業(yè)又該如何應(yīng)對？帶著這樣的疑問，記者采訪了有關(guān)專家和企業(yè)家。

　　算力需求：對于AI芯片的要求全面拉升

　　4年的時間、1500倍的參數(shù)量提升，大型語言模型展現(xiàn)出強勁的擴張態(tài)勢。2018年，OpenAI推出第一代生成式預(yù)訓練語言模型GPT-1，擁有1.17億個參數(shù)。2019年推出的GPT-2擁有12億參數(shù)，是GPT-1的10倍多。一年后面世的GPT-3，參數(shù)量達到1750億個，是GPT-2的100多倍，預(yù)訓練數(shù)據(jù)量高達45TB。ChatGPT正是基于GPT-3.5——一個基于GPT-3的微調(diào)版本。

　　與參數(shù)量一起飆漲的，是大模型的算力需求。燧原科技創(chuàng)始人、董事長兼CEO趙立東向《中國電子報》表示，以ChatGPT為代表的生成式AI模型為了實現(xiàn)高質(zhì)量的內(nèi)容生成，具備兩大特性：參數(shù)規(guī)模巨大的模型、海量的訓練數(shù)據(jù)集。因此，大模型在底層算子支撐、系統(tǒng)架構(gòu)方案、軟件生態(tài)支持方面都和原先的決策式AI模型有著顯著的區(qū)別，需要芯片廠商打造更加領(lǐng)先的系統(tǒng)級軟硬件方案，并在技術(shù)和產(chǎn)品層面打破原有的路線與壁壘。

　　“從算力芯片角度，主要有三方面的需求：一是分布式計算能力，包括數(shù)據(jù)并行、模型并行、流水并行等分布式計算方案，計算效率尤其關(guān)鍵。二是大容量高帶寬的內(nèi)存方案，在每個AI芯片內(nèi)部有效提升數(shù)據(jù)處理能力和算力利用率，結(jié)合HBM以及CXL等新型存儲技術(shù)，進一步提升本地存儲能力和算力利用率。三是更高的單芯片計算能力，以降低整體系統(tǒng)復(fù)雜度，并降低TCO成本?！壁w立東說。

　　昆侖芯科技負責人也向記者表示，伴隨著ChatGPT的迭代，大模型算法對算力的要求不斷提高，而算力的核心就是人工智能芯片?！按竽Ｐ蛯τ嬎愕囊笾饕w現(xiàn)在三個方面，一是算力，二是互聯(lián)，三是成本。大模型的熱潮也將加速AI芯片技術(shù)的創(chuàng)新和進步，包括芯片架構(gòu)、算法優(yōu)化、功耗控制等方面的提升。AI芯片公司可以在這些方面進行研發(fā)和創(chuàng)新，不斷提高產(chǎn)品競爭力?！?/p>

　　除了在已有的AI芯片路徑持續(xù)迭代調(diào)優(yōu)，獲得更優(yōu)的算力、效率、功耗、成本，大模型強烈的高算力需求，也呼喚芯片電路與架構(gòu)層面的進一步創(chuàng)新。北京大學集成電路學院研究員賈天宇向《中國電子報》記者指出，大模型技術(shù)的出現(xiàn)和普及，將進一步推動AI芯片的發(fā)展，拉升多方應(yīng)用產(chǎn)業(yè)對于AI芯片的需求，對于提升AI芯片的重要性和不可或缺性有著積極的意義。但同時也應(yīng)認識到，支持大模型計算的AI芯片算力需求高、設(shè)計復(fù)雜度高，其設(shè)計要求和門檻也隨之提升。

　　“由于傳統(tǒng)芯片技術(shù)發(fā)展的限制，當前芯片設(shè)計的電路與架構(gòu)面臨著存算力瓶頸、能效瓶頸、設(shè)計復(fù)雜度瓶頸等多方面挑戰(zhàn)。如何解決算力需求和芯片設(shè)計瓶頸之間的矛盾，還需要多方的創(chuàng)新和技術(shù)進展?！辟Z天宇說。

　　技術(shù)路徑：通用與定制的平衡

　　在AI芯片的發(fā)展過程中，通用性和定制化像是兩個互相拉扯的作用力，衍生出一系列的芯片架構(gòu)。其中，GPU和ASIC分別是通用性和定制化的代表架構(gòu)，也有著各自的優(yōu)勢和局限性。

　　“GPU架構(gòu)提供了大量數(shù)據(jù)并行結(jié)構(gòu)，因此能夠提供大量的AI并行計算，適用于AI訓練等。ASIC等定制化AI芯片針對特定的應(yīng)用場景進行芯片優(yōu)化，能夠取得更高的計算能效，但通用性相對較弱?！辟Z天宇表示。

　　好在，隨著芯片技術(shù)的發(fā)展，通用性與定制化已不再壁壘森嚴。一方面，英偉達在GPU架構(gòu)中引入了Tensor Core（張量計算核心），一種專門針對深度學習應(yīng)用而設(shè)計的專用ASIC單元，使GPU更加適合深度學習。另一方面，定制化芯片也逐步增加了通用計算單元，并引入可編程或部分可編程的架構(gòu)，增強芯片的場景覆蓋能力。

　　“過去被認為只具備專用性的ASIC或DSA（領(lǐng)域?qū)Ｓ眉軜?gòu)），現(xiàn)在不僅含有用于AI加速計算的專用單元，還含有與英偉達GPU中CUDA Core類似的通用計算單元，同樣可以實現(xiàn)對各種指令的處理。因此，無論是GPU、ASIC，還是DSA架構(gòu)，云端AI芯片企業(yè)在架構(gòu)設(shè)計中需要關(guān)注的是通用和專用計算單元的搭配，以便應(yīng)對AI計算持續(xù)演變帶來的挑戰(zhàn)?！崩鲂究萍枷嚓P(guān)人員向記者表示。

　　“鑒于大模型對于大算力的顯著需求，以及模型訓練算子的多樣性，具有大算力、通用性的芯片將是大算力應(yīng)用的首選。在現(xiàn)存的技術(shù)方案中，GPU是能夠提供算力和開發(fā)生態(tài)的選擇。然而，由于GPU的功耗過高，類GPU架構(gòu)的定制化大算力AI芯片也將存在市場，滿足對于芯片計算能效的提升需求?！辟Z天宇指出。

　　而通用與定制的“配比”，要根據(jù)具體場景設(shè)計。昆侖芯科技相關(guān)人員表示，在通用性、易用性和性能之間實現(xiàn)平衡，需要在實際設(shè)計中結(jié)合需求。除了單一技術(shù)或者算力指標，更要注重產(chǎn)品的綜合競爭力是否均衡。百度的AI應(yīng)用場景，為昆侖芯提供了驗證和調(diào)優(yōu)機會。就大模型而言，昆侖芯在產(chǎn)品定義上已經(jīng)做了布局，昆侖芯2代AI芯片相較昆侖芯第1代產(chǎn)品大幅優(yōu)化了算力、互聯(lián)和性能，在百度內(nèi)外部的大模型場景中都有落地，昆侖芯在研的下一代產(chǎn)品將為大模型和AIGC等應(yīng)用提供更佳的性能體驗。

　　“硬件和場景是雙輪驅(qū)動的，場景催生新的技術(shù)方案，新的技術(shù)促使場景更好地發(fā)展。大模型作為一個趨勢場景，其需求定義清楚了，設(shè)計和實現(xiàn)技術(shù)就會水到渠成?！崩鲂究萍枷嚓P(guān)人員告訴記者。

　　另外，無論是通用芯片還是定制芯片，抑或是通用、專用計算單元兼而有之，設(shè)計環(huán)節(jié)之后的制造、封裝環(huán)節(jié)，也將作用于AI芯片的性能提升。

　　“無論GPU還是定制化AI芯片路線，Chiplet、3D堆疊等先進集成與封裝技術(shù)將成為進一步提升大模型計算能力的重要技術(shù)手段，也將在未來AI芯片發(fā)展中起到重要作用。”賈天宇表示。

　　國內(nèi)企業(yè)：需進一步增強軟件及系統(tǒng)能力

　　雖然ChatGPT還沒有進入盈利階段，但英偉達已經(jīng)成為第一波吃到紅利的企業(yè)。從2023年第一個美股交易日至今（截稿前最后一個交易日2月24日），英偉達的股價增幅超過60%，為處于下行周期的半導(dǎo)體產(chǎn)業(yè)增添了一絲亮色。在北京時間2月23日凌晨的財報發(fā)布中，英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛表示，從初創(chuàng)公司到大型企業(yè)，對于生成式AI的多功能性與能力的興趣越來越濃厚。英偉達將幫助客戶從生成式AI和大型語言模型技術(shù)的突破中獲取優(yōu)勢。

　　英偉達在AI芯片的先發(fā)優(yōu)勢和占比優(yōu)勢，固然有硬件性能的原因，但更關(guān)鍵的是軟件生態(tài)的加持。在21世紀初，GPU的并行計算能力引起了學術(shù)界和產(chǎn)業(yè)界的關(guān)注。但是，開發(fā)者想要調(diào)用英偉達GPU的計算能力進行圖形處理以外的任務(wù)，必須編寫大量的底層語言代碼，這對于習慣高級語言的程序員極其不便。2006年，英偉達推出CUDA平臺，支持開發(fā)者用熟悉的高級程序語言進行編程，靈活調(diào)用GPU的算力。自此，GPU的使用范圍不再局限于顯卡，而是擴展到所有適合并行計算的領(lǐng)域。GPU與CUDA組成的軟硬件系統(tǒng)，形成了英偉達的產(chǎn)品壁壘。

　　近年來，國內(nèi)AI芯片企業(yè)在架構(gòu)創(chuàng)新、算力性能、平臺方案等領(lǐng)域涌現(xiàn)出一系列成果，但仍然需要在軟件、系統(tǒng)和生態(tài)層面進一步向國際領(lǐng)先企業(yè)看齊。趙立東表示，針對大模型對于AI芯片的需求，芯片廠商一方面通過拆解大模型的系統(tǒng)級需求，快速迭代下一代芯片，從底層提升性能和支持效率。另一方面，要基于既有的芯片打造系統(tǒng)級方案，通過軟件升級解決大模型加速遇到的內(nèi)存容量小、通信占比高等核心痛點問題。

　　“要對標國際領(lǐng)先的AI芯片廠商，需要在三個層面開發(fā)優(yōu)化：一是芯片升級，在算力、內(nèi)存、微架構(gòu)等層面針對大模型計算做優(yōu)化；二是軟件升級，從傳統(tǒng)的單卡以及以單機多卡為主的支持能力拓展至萬卡級別大集群支持，有效提供面向大模型支持的分布式計算、混合并行、內(nèi)存優(yōu)化等整體軟件方案；三是系統(tǒng)方案，以AI芯片為核心，結(jié)合計算、存儲、網(wǎng)絡(luò)打造深度優(yōu)化的系統(tǒng)級方案，面向大模型提供極致的性能和成本優(yōu)勢?！壁w立東說。

　　據(jù)介紹，燧原科技已經(jīng)基于千卡訓練集群進行大模型訓練，并將推理產(chǎn)品通過云服務(wù)商，為內(nèi)容生成模型開發(fā)商提供算力支撐?；谙到y(tǒng)級大集群大模型，燧原將持續(xù)創(chuàng)新迭代，重點聚焦生態(tài)建設(shè)，滿足應(yīng)用開發(fā)者對AI算力的強勁需求。

　　昆侖芯科技相關(guān)人員也表示，具體到軟件生態(tài)，AI算法和應(yīng)用開發(fā)者在構(gòu)建AI應(yīng)用和業(yè)務(wù)的過程中，需要一套成熟的編程語言，以及完善的軟件工具集來快速迭代開發(fā)任務(wù)。昆侖芯SDK可以提供從底層驅(qū)動環(huán)境到上層模型轉(zhuǎn)換等全棧的軟件工具，已經(jīng)適配百度飛槳、PyTorch、TensorFlow等主流框架和服務(wù)器，逐漸完善生態(tài)建設(shè)?！耙獙崿F(xiàn)像OpenAI的ChatGPT這樣的大規(guī)模深度學習模型，需要大量的數(shù)據(jù)和算法優(yōu)化，以及相關(guān)領(lǐng)域的專業(yè)知識。因此，要更好地實現(xiàn)ChatGPT的商用落地，需要相應(yīng)的技術(shù)團隊和研究機構(gòu)，與AI芯片企業(yè)協(xié)同推進?！?/p>

　　轉(zhuǎn)自：中國電子報

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點視頻

上半年汽車工業(yè)多項經(jīng)濟指標創(chuàng)新高

熱點新聞

熱點輿情

人工智能大模型需要怎樣的芯片？

熱點視頻

熱點新聞

熱點輿情

微信公眾號