新聞資訊
行業(yè)資訊
2023年不是所有的服務(wù)器都叫“智能服務(wù)器”
2023-10-19 10:22:40
摘要:智能服務(wù)器是集成運(yùn)維平臺軟件、BMC軟件以及智能化芯片的軟硬件整體解決方案。那這種軟硬件整體的解決方案有什么優(yōu)勢呢?

萬萬沒想到,美國拜登政府針對人工智能(AI)芯片的出口管制規(guī)定,計劃阻止英偉達(dá)等公司向中國出口先進(jìn)的AI芯片。結(jié)果,把民用消費(fèi)級的高端顯卡4090也給禁止了,今晚,游戲圈都怒了。隨著云計算、大數(shù)據(jù)以及AI業(yè)務(wù)的蓬勃發(fā)展,對服務(wù)器和計算能力的需求大大增加,全球都在加速數(shù)據(jù)中心的建設(shè),而且規(guī)模越來越大,從幾萬臺服務(wù)器到幾十萬甚至上百萬的規(guī)模。



據(jù)英偉達(dá)公司向美國證券交易委員會提交的最新公開文件,美國政府已經(jīng)發(fā)布更新和修正后的臨時最終決定。受管制的包括但不限于 NVIDIA A100、H100、A800、H800、L40、L40S、RTX 4090 以及集成這些高性能計算卡的 DGX/HGX 系統(tǒng)。由于業(yè)務(wù)的快速發(fā)展,需要IT基礎(chǔ)設(shè)施具備快速部署、快速上線及便捷管理的能力,海量服務(wù)器的管理場景將變得越來越復(fù)雜,傳統(tǒng)運(yùn)維領(lǐng)域面臨著許多新的挑戰(zhàn)。


2023年“智能服務(wù)器”需要滿足哪些要求?



1、服務(wù)器部署的挑戰(zhàn)

在數(shù)據(jù)中心的擴(kuò)容、遷移和整合場景中,一臺新采購的服務(wù)器到正式使用需要經(jīng)過裝配、、調(diào)測、分配網(wǎng)絡(luò)資源、下發(fā)配置等過程,現(xiàn)場人力涉及到硬件安裝、軟件部署和技術(shù)類運(yùn)營維護(hù)人員等。這些操作大部分都需要運(yùn)維人員現(xiàn)場手工操作,據(jù)華為公司IT部門統(tǒng)計,這類操作中,超過50%的故障是由人工操作引發(fā)。人工操作效率較低且容易出錯,這將導(dǎo)致額外的人力、物力以及時間的開銷。


2、能耗管理的挑戰(zhàn)

根據(jù)Climate Change News的報告,2023年全球數(shù)據(jù)中心的電力消耗總量占據(jù)全球電力使用量的3%,而且預(yù)計在2025年這一比例將高達(dá)20%。另外據(jù)統(tǒng)計,能耗費(fèi)用占數(shù)據(jù)中心OPEX(運(yùn)營費(fèi)用)比例高達(dá)35%,OPEX高速增長成為“全球難題”。用戶對能耗管理的訴求主要體現(xiàn)在如何設(shè)計可靠的能耗管理策略,能夠高效地節(jié)約能耗開銷;以及如何有效地統(tǒng)計和預(yù)測能耗開銷,這對數(shù)據(jù)中心的精準(zhǔn)投資至關(guān)重要。


3、故障預(yù)警及診斷的挑戰(zhàn)

傳統(tǒng)運(yùn)維模式中,運(yùn)維人員主要是被動式地等待問題發(fā)生,再進(jìn)行故障處理,傳統(tǒng)運(yùn)維模式下人均維護(hù)效率為50~100臺。

隨著數(shù)據(jù)中心規(guī)模越來越大,故障將發(fā)生地更加頻繁,故障之間的關(guān)聯(lián)將更加復(fù)雜,傳統(tǒng)方式的維護(hù)效率會進(jìn)一步降低。另外基于告警上報的傳統(tǒng)維護(hù)方式是要達(dá)到嚴(yán)重的閾值才能上報問題,難以避免業(yè)務(wù)中斷。在這樣的背景下,用戶級的99.95%或以上的服務(wù)質(zhì)量承諾(SLA)很難保障。


4、面對這樣的挑戰(zhàn),我們應(yīng)該如何應(yīng)對呢?

Gartner于2016年提出了智能運(yùn)維的概念(Algorithmic IT Operations, AIOps),AIOps的部署率在2023年低于5%,但是2019年AIOps的全球部署率將達(dá)到25%,智能運(yùn)維正快速發(fā)展。AIOps運(yùn)維平臺擁有如下11項(xiàng)能力:包括歷史數(shù)據(jù)管理、流數(shù)據(jù)管理、日志數(shù)據(jù)提取、網(wǎng)絡(luò)數(shù)據(jù)提取、算法數(shù)據(jù)提取、文本和NLP文檔提取、自動化模型的發(fā)現(xiàn)和預(yù)測、異常檢測、根因分析、按需交付和軟件服務(wù)交付能力等,這些能力的定義為解決上述痛點(diǎn)問題提供了很多針對性的解決措施,是當(dāng)前數(shù)據(jù)中心管理海量服務(wù)器主要的發(fā)展方向。


智能運(yùn)維是一個長期演進(jìn)的過程,可以看到智能運(yùn)維側(cè)重的是從海量機(jī)器數(shù)據(jù)中進(jìn)行檢測、預(yù)測,從被動運(yùn)維變成主動運(yùn)維,這種優(yōu)化主要軟件層面的優(yōu)化,但實(shí)際上要在部署、節(jié)能以及故障管理等領(lǐng)域?qū)崿F(xiàn)質(zhì)的提升,軟硬件的協(xié)作必不可少。


智能服務(wù)器是集成運(yùn)維平臺軟件、BMC軟件以及智能化芯片的軟硬件整體解決方案。那這種軟硬件整體的解決方案有什么優(yōu)勢呢?

相對于傳統(tǒng)服務(wù)器和OEM模式的服務(wù)器,智能服務(wù)器具備智能化的管理功能,例如單機(jī)級別的故障預(yù)測和分析,智能能耗管理等。同時界面操作更加人性化和智能化,降低了運(yùn)維人員的維護(hù)成本,提高運(yùn)維體驗(yàn)。另外智能服務(wù)器支持維護(hù)人員在近端通過藍(lán)牙、WiFi接入服務(wù)器運(yùn)維系統(tǒng),在服務(wù)器部署和故障定位排查提供了極大的便利性。


以部署和維護(hù)場景為例,智能服務(wù)器提供一鍵式WiFi熱點(diǎn)按鈕,維護(hù)人員到達(dá)現(xiàn)場后,按下WiFi熱點(diǎn)按鈕,并使用移動App掃描服務(wù)器上的條碼接入服務(wù)器運(yùn)維網(wǎng)絡(luò),快速維護(hù)服務(wù)器的框位信息及下發(fā)配置操作,或者根據(jù)移動App提供的裝配和故障排查指導(dǎo)進(jìn)行裝配和維修等。

相對于智能運(yùn)維,智能服務(wù)器提供了支持智能化管理功能的硬件平臺,這大大豐富了智能運(yùn)維的場景。在很多場景,運(yùn)維人員需要手工操作的瓶頸點(diǎn)并不是因?yàn)橛行畔⒃陔[藏在海量數(shù)據(jù)中,而是硬件本身不支持智能化的管理。智能服務(wù)器將軟硬件打通,從根本上解決一些運(yùn)維場景中僅依賴軟件層面無法解決的問題。同時由于硬件芯片能力的提升,服務(wù)器本身能夠分擔(dān)一部分智能運(yùn)維能力,對服務(wù)器的管理更加及時、高效;服務(wù)器采集到的硬件信息也將更加全面,能夠?yàn)檫\(yùn)維平臺產(chǎn)生決策提供更加可靠的參考。


對于能耗管理,智能服務(wù)器將動態(tài)CPU調(diào)頻、風(fēng)扇調(diào)速以及電源休眠等功能進(jìn)行整合。當(dāng)夜間業(yè)務(wù)負(fù)載較低時,用戶將能耗模型設(shè)置成節(jié)能模式,智能服務(wù)器動態(tài)地調(diào)節(jié)CPU頻率,限制功率數(shù)值,同時讓部分電源進(jìn)入休眠模式,進(jìn)一步節(jié)約能耗。當(dāng)日間業(yè)務(wù)負(fù)載較高時,用戶將能耗模式設(shè)置成高性能模式,智能服務(wù)器解除CPU調(diào)頻限制和電源休眠配置,同時讓風(fēng)扇散熱使用高性能的散熱規(guī)格, 節(jié)能策略的智能聯(lián)動,單柜服務(wù)器有望節(jié)能10%以上。智能化的能耗管理平臺還提供了機(jī)柜級能耗的智能控制,根據(jù)歷史功率推薦合適的功率封頂值數(shù)值,在典型業(yè)務(wù)場景下,單柜服務(wù)器的部署密度可以提升10%以上。


智能服務(wù)器繼承了智能運(yùn)維現(xiàn)有的功能,同時為智能運(yùn)維的演進(jìn)提供了一個新的方向??梢灶A(yù)想到,通過智能服務(wù)器解決方案的實(shí)施,傳統(tǒng)運(yùn)維人員能夠擺脫以往機(jī)械式、重復(fù)性和低價值的日常工作,手工操作最大限度得變?yōu)橹悄芑淖詣硬僮?,現(xiàn)場運(yùn)維人力的效率能夠得到極大的提升。同時智能化的能耗和故障管理能力能夠更好地保障對業(yè)務(wù)系統(tǒng)所承諾的服務(wù)質(zhì)量(SLA),并且為用戶更好節(jié)省運(yùn)營成本。



海外服務(wù)器免費(fèi)測試http://hbjsdrq.com/


USA-IDC為您提供免備案服務(wù)器 0元試用
立即聯(lián)系在線客服,即可申請免費(fèi)產(chǎn)品試用服務(wù)
立即申請