中國電子云:構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2024-08-20





  2024年政府工作報告提出,適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國一體化算力體系。隨著“人工智能+”政策的全面推進,我國迎來了智能化高質(zhì)量發(fā)展的嶄新時代,承載智能應(yīng)用的先進算力將成為新質(zhì)生產(chǎn)力的重要引擎。


  在中國電子首席科學(xué)家、中國電子云總工程師朱國平看來,新質(zhì)算力基礎(chǔ)設(shè)施就是在云原生疊加AI原生的設(shè)計理念下,將算力、數(shù)據(jù)、先進存儲和安全進行深度融合,用于高效承載數(shù)據(jù)和人工智能的新型基礎(chǔ)設(shè)施,同時提供基于AI安全的可信數(shù)據(jù)空間,以及以數(shù)據(jù)驅(qū)動的AI原生應(yīng)用的開發(fā)范式。


  聚焦政企和關(guān)鍵行業(yè)發(fā)展新質(zhì)生產(chǎn)力的要求,中國電子正在打造智算芯片、智算操作系統(tǒng)、智算服務(wù)器和一體化算力平臺,建設(shè)服務(wù)金融、政務(wù)和央企等關(guān)鍵基礎(chǔ)行業(yè)的新質(zhì)算力基礎(chǔ)設(shè)施。


  云原生+AI原生 構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施核心能力


  “云原生+AI原生”是新質(zhì)算力基礎(chǔ)設(shè)施的要義所在,也是中國電子云(中國電子旗下唯一云計算品牌)構(gòu)建技術(shù)體系的核心。


  其中,云原生是中國電子云的起點。曾經(jīng),云計算有兩條主要的技術(shù)路線,一類是基于OpenStack進行優(yōu)化和改造,一類是基于容器化、微服務(wù)、DevOps等技術(shù)的云原生。在中國電子云成立的2020年,云原生已經(jīng)被產(chǎn)業(yè)公認(rèn)為最佳技術(shù)路線。因此,中國電子云從一出生就選擇了更加先進的云計算技術(shù),形成了所謂的“后發(fā)優(yōu)勢”。CECSTACK正是基于云原生技術(shù)自研的國產(chǎn)化企業(yè)級云平臺,亦是中國電子構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施的載體。


  在研發(fā)過程中,中國電子云發(fā)現(xiàn),不同領(lǐng)域用戶早期云平臺的底層標(biāo)準(zhǔn)不統(tǒng)一,在業(yè)務(wù)遷移上云的過程中需要兼容不同的芯片、服務(wù)器和操作系統(tǒng),且上層還要支撐各種創(chuàng)新應(yīng)用的落地。鑒于用戶實際部署的難題和云計算產(chǎn)業(yè)的最新趨勢,CECSTACK在研發(fā)之初就堅定基于云原生技術(shù),實現(xiàn)“一云多芯”的能力,不僅自研了分布式云原生云操作系統(tǒng),還在一個資源池內(nèi)部支持多種異構(gòu)的CPU,從而有效屏蔽硬件差異,助力應(yīng)用無感知快速上云。


  而AI原生,則是在系統(tǒng)設(shè)計階段就充分考慮如何支持AI負(fù)載的訓(xùn)練和計算需求,將AI所需的服務(wù)和優(yōu)化內(nèi)置到系統(tǒng)中,客戶可以直接基于CECSTACK訓(xùn)練AI模型或運行AI應(yīng)用,無須再進行基礎(chǔ)設(shè)施的改造或投入。


  比如在計算架構(gòu)上,CECSTACK采用了與云平臺“一云多芯”一脈相承的“一云多智芯”架構(gòu),與國內(nèi)外幾乎所有主流的人工智能加速芯片進行了適配和聯(lián)調(diào)。在網(wǎng)絡(luò)上,CECSTACK支持InfiniBand、RoCE等AI數(shù)據(jù)中心常用的網(wǎng)絡(luò)解決方案。在存儲方面,CECSTACK以分布式存儲系統(tǒng)適應(yīng)AI負(fù)載不斷增長的數(shù)據(jù)量和復(fù)雜性,并融合了閃存技術(shù)和混合閃存技術(shù),推出了針對人工智能訓(xùn)練場景的全閃存儲,以及針對人工智能推理和歸檔場景的混閃存儲。


  從“想到”到“做到” 打磨技術(shù)創(chuàng)新和工程實現(xiàn)能力


  雖然“云原生”“一云多智芯”“AI原生”這些概念在命名上非常簡潔,但“想到”和“做到”之間隔著大量的設(shè)計、適配和調(diào)優(yōu)工作,考驗著中國電子云團隊的技術(shù)創(chuàng)新和工程實現(xiàn)能力。


  記者在采訪中了解到,在構(gòu)建并融合云原生與AI原生的過程中,中國電子云團隊有三條經(jīng)驗。


  一是基于嚴(yán)謹(jǐn)?shù)臏y試持續(xù)優(yōu)化系統(tǒng)。比如在建設(shè)北京亦莊人工智能公共算力平臺的過程中,中國電子云圍繞提升模型訓(xùn)練效率的目標(biāo),對全路徑的數(shù)據(jù)進行測試,檢驗?zāi)膫€位置的數(shù)據(jù)耗時最長,有針對性地進行優(yōu)化。


  二是提升對客戶需求的分析和響應(yīng)能力。中國電子云團隊注意到,大模型訓(xùn)練往往耗時幾個月,必須提升網(wǎng)絡(luò)面對中斷或意外事件的健壯性。因此,中國電子云構(gòu)建了快速生成checkpoint(保存檢查點)的能力,即便模型訓(xùn)練中斷,也能夠基于checkpoint接續(xù)訓(xùn)練。


  三是構(gòu)建全流程改造能力。由于CECSTACK的算力、存儲、數(shù)據(jù)系統(tǒng)均為自研,因此不需要第三方提供接口來進行數(shù)據(jù)采集,也無須委托第三方進行優(yōu)化,在調(diào)優(yōu)和迭代上更加高效可控。


  目前,中國電子云累計建設(shè)超過3300P先進智算算力,包括北京亦莊人工智能公共算力平臺的3000P算力、石家莊人工智能計算中心的100P算力、位于武漢的中國電子云可信智算中心的100P算力,以及中國電子信創(chuàng)云基地的100P算力。中國電子云不僅為以上智算中心或智算平臺提供一體化的算力平臺,也嘗試參與運營,與當(dāng)?shù)卣黄鹄砬迦绾胃咝Ч┙o和利用算力等關(guān)鍵課題。


  “在亦莊3000P算力的建設(shè)過程中,我們在大規(guī)模的基礎(chǔ)設(shè)施上對產(chǎn)品進行了驗證、打磨和優(yōu)化。客戶提出的要求比較高,促使我們不斷迭代和更新產(chǎn)品。這是建設(shè)過程中的最佳實踐,對團隊的能力提升是巨大的?!敝靽礁嬖V記者。


  高效、安全雙輪驅(qū)動 打造穩(wěn)定可靠的新質(zhì)數(shù)字底座


  培育和發(fā)展新質(zhì)生產(chǎn)力,需要處理好發(fā)展與安全的關(guān)系。習(xí)近平總書記強調(diào),要圍繞發(fā)展新質(zhì)生產(chǎn)力布局產(chǎn)業(yè)鏈,提升產(chǎn)業(yè)鏈供應(yīng)鏈韌性和安全水平,保證產(chǎn)業(yè)體系自主可控、安全可靠。


  中國電子云在創(chuàng)立之初,就兼顧了高效和安全的內(nèi)在要求。其母公司中國電子作為網(wǎng)信產(chǎn)業(yè)國家隊,不僅攻克了計算機CPU和操作系統(tǒng)關(guān)鍵核心技術(shù),也形成了“系統(tǒng)優(yōu)化、行業(yè)定制”的發(fā)展模式。首先,中國電子云基于中國電子完備的自主計算產(chǎn)業(yè)體系,以安全為先,包括技術(shù)安全、架構(gòu)安全和長期安全服務(wù)。其次,中國電子云采用了“公有云服務(wù)+專屬公有云產(chǎn)品”的運營模式,兼顧了公有云的高效便捷和私有云的安全可控。最后,中國電子云硬件上支持x86架構(gòu)、異構(gòu)計算架構(gòu),軟件上與合作伙伴廣泛適配并擁抱開源。


  基于差異化的能力,在已經(jīng)成為紅海市場的云計算領(lǐng)域,中國電子云捕捉到了三個市場機遇。一是面向政企和關(guān)鍵行業(yè)提供數(shù)字基礎(chǔ)設(shè)施,此類客戶普遍對數(shù)據(jù)安全有著極高的要求,無法將業(yè)務(wù)部署在公有云,存在大量專屬云的市場機會。二是抓住信創(chuàng)改造和升級帶來的市場機會。三是人工智能高速發(fā)展帶來的智算中心系列產(chǎn)品的機會?!耙虼宋覀兊漠a(chǎn)品策略有兩個,一是以信創(chuàng)為根本,二是‘a(chǎn)ll in AI’?!敝靽奖硎尽?/p>


  憑借高安全、高性能、高彈性的數(shù)字底座,中國電子云受到中央企業(yè)和關(guān)鍵行業(yè)用戶的青睞,成功承建了一批央企云平臺和行業(yè)公共服務(wù)基礎(chǔ)設(shè)施。


  在關(guān)鍵行業(yè)領(lǐng)域,基于CECSTACK建設(shè)打造的南方電網(wǎng)調(diào)度云異地災(zāi)備平臺,按照“兩地三中心+按需建設(shè)省級分中心”模式,構(gòu)建一體化全棧云平臺,有力支撐了新型電力系統(tǒng)建設(shè),保障人民群眾用電安全。中國電子云與華電電科院、國電南自華盾公司合作開發(fā)的國內(nèi)首個行業(yè)級自主可控燃機智慧運維云平臺“中國華電燃機智慧云”采用“1+N”的云邊協(xié)同架構(gòu),通過使用燃機智慧運維云平臺,僅運行優(yōu)化一個模塊,電廠一年就可以節(jié)省50萬到100萬元。


  在信創(chuàng)改造領(lǐng)域,中國電子云與金電云在金融信創(chuàng)領(lǐng)域密切合作,建設(shè)了銀行電子憑證互聯(lián)互通平臺,以解決銀行電子憑證領(lǐng)域存在的機構(gòu)多頭連接、接口重復(fù)開發(fā)、系統(tǒng)重復(fù)建設(shè)等痛點難點。雙方按照金融云等級標(biāo)準(zhǔn),科學(xué)布局“多地多中心”,構(gòu)建綠色先進高效的算力體系和一云多芯云平臺,為全國范圍內(nèi)的中小型金融機構(gòu)提供涵蓋IaaS、PaaS、SaaS的專業(yè)化云服務(wù)。截至2023年11月,該互聯(lián)互通平臺累計完成業(yè)務(wù)轉(zhuǎn)接總量超276萬筆。


  AI+未來 緊抓計算產(chǎn)業(yè)最大變量


  人工智能被視為發(fā)展新質(zhì)生產(chǎn)力的主要陣地。發(fā)展人工智能,已經(jīng)成為央企和關(guān)鍵行業(yè)轉(zhuǎn)型升級、提升核心競爭力的要求。接下來,中國電子云將以CECSTACK為抓手,以構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施為目標(biāo),持續(xù)提升和完善智算交付能力。


  “AI會無處不在,這是計算產(chǎn)業(yè)最大的變化,也是民眾生活的最大變量。新質(zhì)算力基礎(chǔ)設(shè)施要同時滿足人工智能發(fā)展和數(shù)據(jù)要素流通。目前,我們已經(jīng)具備了賦能AI和數(shù)據(jù)要素的能力,會將為客戶提供一體化的AI服務(wù)作為接下來的努力方向?!敝靽奖硎?。


  不過,采訪中記者了解到,在推動新質(zhì)算力基礎(chǔ)設(shè)施的過程中,中國電子云也面臨一些產(chǎn)業(yè)共性的難點。一是算力的獲取。一方面,美國對英偉達向中國出口產(chǎn)品的限制,導(dǎo)致高端算力芯片的獲取更加困難;另一方面,國產(chǎn)算力芯片的性能還有待提升。二是基礎(chǔ)設(shè)施需要進一步完善,尤其是算力基礎(chǔ)設(shè)施的大規(guī)?;ヂ?lián)和測試,還缺乏成規(guī)模的實際部署案例。三是AI軟件工具鏈不夠成熟,相比英偉達CUDA等國際領(lǐng)先企業(yè)的生態(tài)布局,國內(nèi)需要加強軟件和應(yīng)用生態(tài)培育。


  “發(fā)展新質(zhì)生產(chǎn)力需強化企業(yè)科技創(chuàng)新主體地位。”圍繞企業(yè)如何踐行新質(zhì)生產(chǎn)力,以及全社會如何更好地支持企業(yè)發(fā)展新質(zhì)生產(chǎn)力,朱國平提了三個建議,一是企業(yè)踐行新質(zhì)生產(chǎn)力不能脫離自身的實際情況,要結(jié)合業(yè)務(wù)實踐,通過AI等新技術(shù)的賦能,優(yōu)先將原有業(yè)務(wù)做得更好。二是要建設(shè)高質(zhì)量的數(shù)據(jù)集,人工智能大模型的開發(fā)和訓(xùn)練需要高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集,各行各業(yè)要運用AI等新興技術(shù)的能力,也需要高質(zhì)量動態(tài)數(shù)據(jù)集的支持,這需要有關(guān)部門及整個產(chǎn)業(yè)鏈的共同努力。三是建設(shè)更加包容的創(chuàng)新環(huán)境,創(chuàng)新是逐步積累、逐步改進的過程,包容的環(huán)境能夠鼓勵企業(yè)人才勇于創(chuàng)新,更好地激發(fā)企業(yè)的創(chuàng)新活力。(記者 張心怡 連曉東)


  轉(zhuǎn)自:中國電子報

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964