BAT三巨頭有百度的自動(dòng)駕駛,阿里的城市大腦,還有騰訊基于自己軟件應(yīng)用場(chǎng)景做的各種智能化嘗試;新興的人工智能巨頭如科大訊飛的智能語(yǔ)音,今日頭條的智能推薦等等,都在改變著人們的生活方式。而實(shí)現(xiàn)這一切的背后,離不開(kāi)強(qiáng)大的AI服務(wù)器。
浪潮信息AGX-2(NF5288M5)是目前全球唯一可在2U空間支持8顆NVlink2.0高速互聯(lián)GPU加速計(jì)算的AI服務(wù)器,能滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各類(lèi)AI應(yīng)用場(chǎng)景對(duì)計(jì)算架構(gòu)性能、功耗的不同需求。每U搭載4顆GPU的密度、960TFlops的性能、ns級(jí)的延遲等強(qiáng)大性能的背后,必然對(duì)功耗、密度、穩(wěn)定性帶來(lái)極大的挑戰(zhàn),這背后又有哪些黑科技呢?
AI計(jì)算加速器AGX-2
為了提升計(jì)算效率、滿足多樣化AI場(chǎng)景需求,AGX-2變異構(gòu)為同構(gòu),消除了異構(gòu)通信帶來(lái)降低計(jì)算效率的煩惱。為了更大幅度地提升服務(wù)器計(jì)算效率,滿足AI應(yīng)用對(duì)計(jì)算力的需求,AGX-2在架構(gòu)設(shè)計(jì)中將計(jì)算密度做到了極致。而為了滿足客戶對(duì)彈性架構(gòu)平臺(tái)的需求,AGX-2創(chuàng)新地采用PCI-E連接資源,實(shí)現(xiàn)更加靈活的拓?fù)洹?/p>
浪潮信息AI服務(wù)器 AGX-2
極致效率、異構(gòu)變同構(gòu):AGX-2拋棄傳統(tǒng)異構(gòu)計(jì)算架構(gòu)模式,在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? P100 GPU,可以在不依賴(lài)CPU的前提下,實(shí)現(xiàn)機(jī)內(nèi)點(diǎn)到點(diǎn)通訊,減少了異構(gòu)通訊的次數(shù);并在業(yè)界率先支持NVLink 2.0和最新發(fā)布的NVIDIA? Tesla?系列GPU,可以實(shí)現(xiàn)GPU間高達(dá)300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過(guò)60%。將GPU同構(gòu),把AGX-2的并行計(jì)算效率盡可能推到極限。
極致密度、更高計(jì)算力:與浪潮信息支持2U4卡的NF5288M4對(duì)比測(cè)試,AGX-2采用P100的Linpack浮點(diǎn)運(yùn)算性能達(dá)29.33TFLOPS,是同樣采用P100 NF5288M4的2.47倍;在AI深度學(xué)習(xí)模型訓(xùn)練上,當(dāng)采用TensorFlow框架和 GoogLeNet模型,AGX-2處理速度為每秒1165幅圖片,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。在實(shí)現(xiàn)了性能和效率雙提升的同時(shí),機(jī)箱仍然保持了和上一代一樣的2U高度,實(shí)現(xiàn)了最高的GPU卡部署密度。在超大規(guī)模AI訓(xùn)練集群或HPC集群引用時(shí),可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎(chǔ)設(shè)施資源,更有利于數(shù)據(jù)中心的空間分配。
極致靈活、彈性計(jì)算拓?fù)洌?span id="4sg40r3" class="s1">AGX-2采用PCI-E線纜的方式連接CPU和GPU資源,可以靈活調(diào)整CPU的連接帶寬和連接數(shù)量,在應(yīng)對(duì)不同的AI應(yīng)用時(shí),更好的做到PCI-E資源按需分配。靈活的計(jì)算架構(gòu)可以讓一顆或兩顆CPU管理8顆GPU,也可以通過(guò)GPU擴(kuò)展box的方式,實(shí)現(xiàn)最大16GPU的縱向擴(kuò)展。而服務(wù)器提供的PCI-E I/O,8個(gè)U.2插槽, 或多達(dá)4塊100Gbps InfiniBand網(wǎng)卡,都可以根據(jù)計(jì)算靈活調(diào)整拓?fù)洹?span id="4omcgkt" class="s1">AGX-2彈性的異構(gòu)平臺(tái),足以支撐多樣化的AI場(chǎng)景。
極致設(shè)計(jì)背后帶來(lái)的極限挑戰(zhàn)
AGX-2通過(guò)優(yōu)秀的設(shè)計(jì),實(shí)現(xiàn)了性能、靈活性和密度的多維度增強(qiáng),然而這背后帶來(lái)的卻是對(duì)互連、供電和散熱設(shè)計(jì)的三大極限挑戰(zhàn)。如何在一個(gè)系統(tǒng)中實(shí)現(xiàn)GPU卡的靈活配置,滿足高達(dá)3000W的供電需求,并在有限的空間內(nèi)解決散熱,成為了開(kāi)發(fā)這款產(chǎn)品的三大難題 。在此就給大家一一揭秘AGX-2是如何做到的。
300GB/s聚合帶寬的Cube Mesh拓?fù)?/strong>
互連挑戰(zhàn):有別于業(yè)界異構(gòu)服務(wù)器CPU和GPU緊耦合的互連方式,AGX-2采用解耦式設(shè)計(jì),不但提供靈活性,同時(shí)還支持高達(dá)300GB/s的NVIDIA? NVLink?GPU互連帶寬。浪潮信息
結(jié)合刀片服務(wù)器的設(shè)計(jì)思路,把這些組件緊湊的布局到2U空間中,并基于8路服務(wù)器的設(shè)計(jì)經(jīng)驗(yàn),確保NVLink?的走線長(zhǎng)度、信號(hào)都處在最佳狀態(tài),以保證GPU的性能發(fā)揮。
供電挑戰(zhàn):8塊功耗高達(dá)300W的GPU,以及服務(wù)器內(nèi)其他的計(jì)算、存儲(chǔ)和I/O資源,整機(jī)的功耗需求達(dá)到3000W,供電如何走線成為最大的挑戰(zhàn)。AGX-2借鑒了浪潮信息在整機(jī)柜服務(wù)器的供電設(shè)計(jì)方式,對(duì)單服務(wù)器內(nèi)部采用無(wú)線纜供電設(shè)計(jì),減少了供電線纜對(duì)空間的占用以及對(duì)散熱氣流的影響。在保證供電能力的同時(shí),對(duì)空間、散熱的影響降到最低。
散熱挑戰(zhàn):3000W的供電,意味著3000W的峰值發(fā)熱量,6倍于傳統(tǒng)的2U服務(wù)器,散熱成為一個(gè)繞不過(guò)的難題。AGX-2在設(shè)計(jì)之初,從布局、風(fēng)道和氣流多個(gè)方面統(tǒng)籌進(jìn)行考慮。低發(fā)熱量組件前置,高發(fā)熱量組件后置,避免局部熱點(diǎn),讓空氣在服務(wù)器的內(nèi)部均衡的升溫,再通過(guò)高速風(fēng)扇將熱量快速帶出服務(wù)器,最終AGX-2可以和傳統(tǒng)服務(wù)器一樣工作在35℃的環(huán)溫下。并且為了支持低PUE數(shù)據(jù)中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環(huán)溫運(yùn)行。
100%的計(jì)算密度提升、960TFlops的計(jì)算力、200倍的單機(jī)AI訓(xùn)練性能,AGX-2無(wú)愧是一款最高密度、最高性能的AI服務(wù)器,無(wú)論是在面向人工智能訓(xùn)練還是HPC應(yīng)用時(shí),都將為用戶提供極致性能體驗(yàn)。和傳統(tǒng)概念的高性能集群相比,GPU同構(gòu)、靈活拓?fù)浜统呙芏鹊恼w架構(gòu),讓?xiě)?yīng)用和硬件的結(jié)合,變得更為高效和緊密。
轉(zhuǎn)自:先鋒科技網(wǎng)
版權(quán)及免責(zé)聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀
版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964