新聞資訊
行業(yè)資訊
監(jiān)控如何成為數(shù)據(jù)中心的天眼
2017-12-27 00:00:00
摘要:雖然現(xiàn)在有無人值守數(shù)據(jù),有軟件定義數(shù)據(jù)中心,各種智能化的數(shù)據(jù)中心,但實質(zhì)上這些數(shù)據(jù)中心都是離不開人的,若沒有人的參與和指導,這些設備都還可能處于無序的工作狀態(tài)。就像前段時間,有人討論機器人和人的關(guān)系,未來究竟是誰能代替誰的問題。對于數(shù)據(jù)中心來說,人在數(shù)據(jù)中心的運行周期里依然起著最為關(guān)鍵的作用,數(shù)據(jù)中心離不開人。

    雖然現(xiàn)在有無人值守數(shù)據(jù),有軟件定義數(shù)據(jù)中心,各種智能化的數(shù)據(jù)中心,但實質(zhì)上這些數(shù)據(jù)中心都是離不開人的,若沒有人的參與和指導,這些設備都還可能處于無序的工作狀態(tài)。就像前段時間,有人討論機器人和人的關(guān)系,未來究竟是誰能代替誰的問題。對于數(shù)據(jù)中心來說,人在數(shù)據(jù)中心的運行周期里依然起著最為關(guān)鍵的作用,數(shù)據(jù)中心離不開人。數(shù)據(jù)中心也不是放在那里運轉(zhuǎn)起來就不用管了,還是需要人去監(jiān)控和管理。所以無論一個數(shù)據(jù)中心的自動化水平多高,技術(shù)多先進,都需要監(jiān)控,監(jiān)控是整個數(shù)據(jù)中心生命周期中最重要的一環(huán),事前及時預警發(fā)現(xiàn)問題,事后提供詳實的數(shù)據(jù)用于追查定位問題,一切信息和數(shù)據(jù)都有溯源可查,這就是監(jiān)控的作用,通過監(jiān)控得到的信息可以提升數(shù)據(jù)中心的運行效率和運維水平,提高生產(chǎn)力,所以說監(jiān)控是數(shù)據(jù)中心的天眼。

 



    關(guān)于數(shù)據(jù)中心監(jiān)控方面的技術(shù)和工具數(shù)不勝數(shù),從最開始的SNMP MIB網(wǎng)管,到現(xiàn)在的云計算工具,可視化、圖形化、自動化的工具可真是不少,而且不少還是開源的免費使用。比如:MRTG(Multi Route Traffic Grapher)、Ganglia、OpenTSDB、Zabbix都是免費的,當然用起來都有不少問題需要自己修改,還有一些專業(yè)的定制化軟件,這些則需要支付費用,針對特定的數(shù)據(jù)中心設計一些專用的監(jiān)控軟件。不管是哪個軟件,本質(zhì)都是從數(shù)據(jù)中心的各個運行設備上獲取與運行相關(guān)的數(shù)據(jù)信息,從而判斷數(shù)據(jù)中心運行是否正常,將這些信息傳遞給管理人員,由管理人員進行決策,如果是簡單的切換動作,也可能交給監(jiān)控軟件自行完成。所以,對于監(jiān)控來說主要完成六件事:采集、存儲、分析、展示、報警、處理,如果一個數(shù)據(jù)中心的監(jiān)控系統(tǒng)具備完成這六部分的內(nèi)容,那這個數(shù)據(jù)中心一定是很棒的,管理人員可以天天喝茶去了。具體來講這六個部分,采集指的是通過SNMP、ICMP、設備命令等對各種設備進行數(shù)據(jù)采集,這個采集的數(shù)據(jù)量也許是海量的,數(shù)據(jù)越多越好,這樣對于判斷分析問題更為準確;存儲指的是要將這些采集到的數(shù)據(jù)定期存儲下來,避免丟失,方便日后回查;數(shù)據(jù)分析指的是當我們事后需要復盤分析故障時,可以對這些數(shù)據(jù)進行分析,借助于大數(shù)據(jù)、云計算等新技術(shù),對采集到的海量數(shù)據(jù)進行分析,也可以將這些數(shù)據(jù)通過圖形化、概率統(tǒng)計方式進行顯示,方便分析;數(shù)據(jù)展示指的是將數(shù)據(jù)中心運行的各種實時參數(shù)(比如:流量圖、業(yè)務洪峰、網(wǎng)絡互聯(lián)情況、環(huán)境情況等)通過網(wǎng)頁或者大屏的方式顯示出來,讓人一目了然。不少的數(shù)據(jù)中心都有這樣的顯示大屏,將數(shù)據(jù)中心的各個系統(tǒng)運行狀態(tài)和關(guān)鍵數(shù)據(jù)在大屏上顯示出來,哪里出問題可以立即在大屏上看到,便于管理人員發(fā)現(xiàn)并及時排除問題。監(jiān)控告警指的是為這些監(jiān)控的數(shù)據(jù)設定安全閾值,一旦采集到的數(shù)據(jù)不符合安全閾值要求,立即發(fā)出監(jiān)控告警,包括電話告警、郵件告警、微信告警、短信告警、告警升級機制等。報警處理指的是當接到告警后,我們需要根據(jù)故障的級別進行處理,比如:重要緊急、重要不緊急、不重要緊急、不重要不緊急等,根據(jù)故障的級別,配合相關(guān)人員進行快速處理。

    那么,數(shù)據(jù)中心的監(jiān)控都監(jiān)控哪些方面呢?數(shù)據(jù)中心的確是一個非常復雜龐大的系統(tǒng),監(jiān)控不可能面面俱到,一定要監(jiān)控對數(shù)據(jù)中心最重要的地方。一般來講,數(shù)據(jù)中心的所有設備硬件狀態(tài)都要監(jiān)控,電子設備出現(xiàn)硬件故障在所難免,一個擁有十幾萬臺服務器的數(shù)據(jù)中心幾乎每天都會有服務器故障,所以對這些服務器的硬件情況一定要監(jiān)控,發(fā)現(xiàn)異常及時將故障設備下線,業(yè)務切換到其它服務器上繼續(xù)運行;還要對所有設備的CPU、內(nèi)存、磁盤使用率、磁盤讀寫都要監(jiān)控,發(fā)現(xiàn)異常及時處理;業(yè)務服務的監(jiān)控,通過腳本來實現(xiàn)想監(jiān)控的內(nèi)容,以及報警和圖形功能;網(wǎng)絡的監(jiān)控,網(wǎng)絡是數(shù)據(jù)中心的重要組成部分,一般也是由數(shù)百臺的網(wǎng)絡設備連接組合到一起,要對這些設備和鏈路進行監(jiān)控,發(fā)現(xiàn)異常及時告警;還有安全監(jiān)控、業(yè)務監(jiān)控、流量分析、可視化、自動化監(jiān)控等等,一個完整的監(jiān)控體系要做的工作非常多。但一定要注意,切不可大而空的監(jiān)控,如果做不到全部就做部分,監(jiān)控數(shù)據(jù)中心的一部分,將這部分做精做好,很多時候采集的數(shù)據(jù)不正確或者關(guān)鍵數(shù)據(jù)沒有采集到,導致問題并不是由監(jiān)控系統(tǒng)反映出來,而是由業(yè)務層面反饋出來的,這時對業(yè)務已經(jīng)造成了影響,監(jiān)控系統(tǒng)沒有起到應有的作用。監(jiān)控系統(tǒng)要全面,但也要注重采集和分析數(shù)據(jù)的準確性。

    監(jiān)控是數(shù)據(jù)中心的天眼,對數(shù)據(jù)中心的重要性不言而喻,就好像人走路不能離開雙眼一樣,每個數(shù)據(jù)中心在整個運行周期過程中都在不斷完善和建設自己的監(jiān)控系統(tǒng)。監(jiān)控的目的是要及時發(fā)現(xiàn)數(shù)據(jù)中心出現(xiàn)的問題,并且能及時定位問題、解決問題,當然事后還要總結(jié)。如果監(jiān)控不能做到這些,那么就不是一個好的監(jiān)控系統(tǒng)。監(jiān)控系統(tǒng)就好比是數(shù)據(jù)中心的體檢醫(yī)生,要能看病還能治病,數(shù)據(jù)中心不舒服了,立馬在監(jiān)控系統(tǒng)上就有體現(xiàn),這樣監(jiān)控才能起到應有的作用。有了監(jiān)控系統(tǒng),人的作用的確不大了,只要人去做決策就好了,監(jiān)控會將數(shù)據(jù)中心的運行狀態(tài)記錄下來并及時給出告警,以便人們進行處理,好的監(jiān)控系統(tǒng)就是只將YES或NO的選擇留給人們?nèi)プ?,所有的信息?shù)據(jù)監(jiān)控系統(tǒng)已經(jīng)分析好了。

海外服務器免費測試http://hbjsdrq.com/


USA-IDC為您提供免備案服務器 0元試用
立即聯(lián)系在線客服,即可申請免費產(chǎn)品試用服務
立即申請