如何構(gòu)建“先發(fā)制人”的遠(yuǎn)程管理控制器方案(內(nèi)存篇章)


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2021-02-26





Story image


新冠疫情引發(fā)全球健康危機(jī),全球人口被迫在家工作、學(xué)習(xí)、社交、進(jìn)行零售交易、娛樂,甚至與醫(yī)療保健提供者見面。正如微軟首席執(zhí)行官薩蒂婭·納德拉(Satya Nadella)在全球健康危機(jī)爆發(fā)60天左右時(shí)所說的一句名言,“我們?cè)趦蓚€(gè)月內(nèi)見證了兩年的數(shù)字化轉(zhuǎn)型?!?/p>


如今,所有社交媒體、視頻會(huì)議、云協(xié)作平臺(tái)、電子商務(wù)、遠(yuǎn)程醫(yī)療、在線教育和在線娛樂都依賴于高可用數(shù)據(jù)中心以及可靠的服務(wù)器硬件。數(shù)據(jù)中心現(xiàn)在被世界各國政府正確地列為重要的基礎(chǔ)設(shè)施。我們的數(shù)據(jù)中心和駐留在那里的硬件比以往任何時(shí)候都更需要保持在線,以便數(shù)字經(jīng)濟(jì)保持正常運(yùn)行。


業(yè)務(wù)連續(xù)性


根據(jù)美國正常運(yùn)行時(shí)間研究所(Uptime Institute)的2020年數(shù)據(jù)中心調(diào)查,與前幾年相比,疫情爆發(fā)后,工作與生活有很多的事情從線下轉(zhuǎn)到線上?!巴C(jī)頻率令人不安,更大的停機(jī)正變得更具破壞性和成本”。


上海泓戟致力于為行業(yè)客戶提供業(yè)務(wù)連續(xù)性的解決方案,以創(chuàng)新的手段實(shí)現(xiàn)運(yùn)維極簡化和智能化。


新一代edgeCentral MX敏捷遠(yuǎn)程管理控制器,將英特爾公司MFP(Memory Failure Prediction)內(nèi)存故障預(yù)測(cè)方案集成在管理系統(tǒng)中,集中統(tǒng)一的維護(hù)界面實(shí)現(xiàn)對(duì)廣泛連接的數(shù)據(jù)中心和邊緣計(jì)算場(chǎng)景的服務(wù)器進(jìn)行遠(yuǎn)程管控和預(yù)測(cè)性維護(hù)。


如圖片無法顯示,請(qǐng)刷新頁面


作為數(shù)據(jù)中心發(fā)生的三大硬件故障之一,內(nèi)存故障直接影響服務(wù)器的可靠性。此外,內(nèi)存故障可能會(huì)產(chǎn)生毀滅性的影響,如何給數(shù)據(jù)中心運(yùn)營商提供未來中斷的足夠早的警告,以便采取先發(fā)制人的行動(dòng)?是當(dāng)前亟待解決的問題。


如圖片無法顯示,請(qǐng)刷新頁面


利用機(jī)器學(xué)習(xí)來分析實(shí)時(shí)內(nèi)存健康數(shù)據(jù),可以提前預(yù)測(cè)此類故障。機(jī)器學(xué)習(xí)是一種自動(dòng)建立分析模型的數(shù)據(jù)分析方法,它使用的算法是從數(shù)據(jù)中迭代學(xué)習(xí)的,這樣計(jì)算機(jī)就可以找到隱藏的見解,而無需對(duì)在何處查找這些見解進(jìn)行顯式編程。


分析實(shí)時(shí)內(nèi)存運(yùn)行狀況數(shù)據(jù)和避免內(nèi)存故障的能力最終會(huì)為客戶帶來更好的體驗(yàn)。對(duì)于在線服務(wù)平臺(tái)和云服務(wù)提供商這樣的組織來說尤其如此,它們嚴(yán)重依賴于服務(wù)器硬件的可靠性、可用性和可維護(hù)性。正是這些類型的企業(yè)正經(jīng)歷著今天不斷飆升的需求。


通過在其數(shù)據(jù)中心部署內(nèi)存故障預(yù)測(cè)解決方案并將其集成到現(xiàn)有管理系統(tǒng)中,IT員工可以分析其服務(wù)器內(nèi)存故障,減少停機(jī)時(shí)間,并改進(jìn)其當(dāng)前的雙列直插式內(nèi)存模塊(DIMM)更換策略。


這種內(nèi)存故障預(yù)測(cè)解決方案使用機(jī)器學(xué)習(xí)來分析服務(wù)器內(nèi)存錯(cuò)誤,直至DIMM、存儲(chǔ)組、列、行和單元級(jí)別,以生成每個(gè)DIMM的內(nèi)存運(yùn)行狀況得分。隨著時(shí)間的推移,健康評(píng)分的變化可以在影響發(fā)生之前就發(fā)出問題的信號(hào),為轉(zhuǎn)移工作量和/或采取其他行動(dòng)提供足夠的前置時(shí)間。


為了更好地了解內(nèi)存運(yùn)行狀況評(píng)分是如何生成的,有必要了解內(nèi)存故障預(yù)測(cè)引擎被放置在BIOS固件中,并在內(nèi)存錯(cuò)誤發(fā)生時(shí)接收警報(bào)。當(dāng)服務(wù)器在特定內(nèi)存區(qū)域中出現(xiàn)突發(fā)錯(cuò)誤時(shí),將檢查DIMM運(yùn)行狀況評(píng)估模型(DHAM),以評(píng)估是否需要修改受影響的DIMM的運(yùn)行狀況得分。如果是這樣,則相應(yīng)地更改分?jǐn)?shù)并將其傳遞給基板管理控制器(BMC)。最終通過IPMI over LAN傳遞給edgeCentral MX敏捷遠(yuǎn)程管理控制器。


一些用戶測(cè)試部署表明,如果在其整個(gè)服務(wù)器網(wǎng)絡(luò)上部署edgeCentral MX敏捷遠(yuǎn)程管理控制器和英特爾公司MFP(Memory Failure Prediction)解決方案,由硬件故障引起的服務(wù)器崩潰可減少50%以上。


情況說明:


1、文中引用的英特爾、MFP等商標(biāo)或技術(shù)歸屬英特爾公司所有。


2、edgeCentral MX 為上海泓戟信息科技有限公司注冊(cè)品牌,edgeCentral MX敏捷遠(yuǎn)程管理控制器為上海泓戟公司自研產(chǎn)品。

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

廣西崇左:“中國糖都”的甜蜜變化 廣西崇左:“中國糖都”的甜蜜變化

熱點(diǎn)新聞

熱點(diǎn)輿情

?

微信公眾號(hào)

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964