60天內(nèi),一個(gè)機(jī)房起火,四大云巨頭掛機(jī),如何運(yùn)維避免宕機(jī)厄運(yùn)?
然而,這不是個(gè)案。一個(gè)多月時(shí)間里,接二連三地爆出了一樁樁驚心動(dòng)魄的事故:
6月初,北京亦莊某數(shù)據(jù)中心機(jī)房柴油機(jī)發(fā)生起火;
6月28日,阿里云官網(wǎng)控制臺(tái)和使用部分產(chǎn)品功能出現(xiàn)問(wèn)題;
7月17日,AWS管理控制臺(tái)間歇性失靈;
7月18日,谷歌云平臺(tái)全局負(fù)載均衡服務(wù)發(fā)生中斷;
……
以阿里云故障為例,其事后聲明直指,這也是其在運(yùn)維上的一個(gè)操作失誤。結(jié)果導(dǎo)致阿里云的多個(gè)產(chǎn)品在約1個(gè)小時(shí)期間均無(wú)法使用,有用戶(hù)直言:中國(guó)互聯(lián)網(wǎng)半壁江山,驚魂整整一小時(shí)!
看來(lái),高溫模式之下,數(shù)據(jù)中心與云計(jì)算領(lǐng)域也在經(jīng)受著前所未有的運(yùn)維考驗(yàn)。
智能化自動(dòng)化運(yùn)維,并非無(wú)人介入,還要借力人工智能
運(yùn)維無(wú)小事,尤其是對(duì)于充當(dāng)重要基礎(chǔ)設(shè)施角色的數(shù)據(jù)中心而言,運(yùn)維工作更是絲毫不能懈怠。近十多年來(lái),數(shù)據(jù)中心已從只有UPS、空調(diào)和IT設(shè)備的普通機(jī)房時(shí)代,進(jìn)入到囊括各種新技術(shù)和應(yīng)用的新時(shí)代。這樣一來(lái),規(guī)模化之下,風(fēng)險(xiǎn)集中,數(shù)據(jù)中心的運(yùn)維管理面臨更大的挑戰(zhàn),運(yùn)維難度也“更上一層樓”,特別是面對(duì)不斷擴(kuò)充和升級(jí)的數(shù)據(jù)中心,基礎(chǔ)設(shè)施安全、穩(wěn)定的運(yùn)行顯得日益重要。
在數(shù)據(jù)中心領(lǐng)域,講究的是“三分技術(shù),七分管理”。因此,數(shù)據(jù)中心如何減少人為參與的機(jī)會(huì),并對(duì)人為行為進(jìn)行科學(xué)管控,正是當(dāng)下運(yùn)維工作的重中之重,而近年來(lái)建設(shè)投產(chǎn)的新一代數(shù)據(jù)中心往往對(duì)此頗有發(fā)言權(quán)。其中,8月底投產(chǎn)運(yùn)營(yíng)的中國(guó)電信開(kāi)普勒(佛山)數(shù)據(jù)中心在智能自動(dòng)化運(yùn)維之路上進(jìn)行了積極探索。
如今,大數(shù)據(jù)、物聯(lián)網(wǎng)、自動(dòng)化和機(jī)器學(xué)習(xí)等創(chuàng)新技術(shù)改變了數(shù)據(jù)中心傳統(tǒng)的運(yùn)維管理模式。新一代數(shù)據(jù)中心運(yùn)維離不開(kāi)信息系統(tǒng)的支撐,建立一套高度智能化的信息系統(tǒng),是提高運(yùn)維效率、實(shí)現(xiàn)運(yùn)維智能自動(dòng)化的關(guān)鍵。
其中,運(yùn)行監(jiān)控平臺(tái)是實(shí)現(xiàn)運(yùn)維管理系統(tǒng)的基礎(chǔ)和前提。為了保障數(shù)據(jù)中心的安全,運(yùn)營(yíng)商需要對(duì)數(shù)據(jù)中心里面的溫濕度、電能、水流及風(fēng)量等進(jìn)行全面實(shí)時(shí)的監(jiān)控,以期發(fā)現(xiàn)潛在問(wèn)題。在開(kāi)普勒數(shù)據(jù)中心里,監(jiān)控中心執(zhí)行了紅外溫度監(jiān)測(cè)、電能質(zhì)量監(jiān)測(cè)、超聲波水流監(jiān)測(cè)、風(fēng)量監(jiān)測(cè)等資源的監(jiān)控,并額外增加關(guān)鍵設(shè)備監(jiān)控,告警信息直接在監(jiān)控中心展示,確保關(guān)鍵設(shè)備告警信息第一時(shí)間被運(yùn)維人員獲取,有備無(wú)患,少故障處理時(shí)間,提升工作效率;與此同時(shí),防患于未然,科學(xué)運(yùn)用這些數(shù)據(jù)還可以為應(yīng)急措施及節(jié)能措施提供可靠的指導(dǎo)依據(jù)。
以人工智能技術(shù)為依托,監(jiān)控中心采用了統(tǒng)一規(guī)范編碼、名稱(chēng)、數(shù)據(jù)類(lèi)型、單位精度、更新頻率、儲(chǔ)存要求等數(shù)據(jù)源標(biāo)準(zhǔn),數(shù)據(jù)中心各種資源與設(shè)備的運(yùn)行狀況一目了然,既提升了運(yùn)維的工作效率,又很大程度上避免了機(jī)房出現(xiàn)局部熱點(diǎn)、機(jī)房冷熱不均、局部熱點(diǎn)等不良現(xiàn)象發(fā)生。
只有監(jiān)控平臺(tái)仍是遠(yuǎn)遠(yuǎn)不夠的,想要實(shí)現(xiàn)更精細(xì)化的管理,還少不了智能管理平臺(tái),由此PC端搭配移動(dòng)APP的智能管理方式應(yīng)運(yùn)而生。據(jù)悉,開(kāi)普勒數(shù)據(jù)中心在業(yè)界首創(chuàng)性地采用了全自動(dòng)化二維碼巡檢系統(tǒng),可自定義巡檢路線(xiàn),自動(dòng)生成巡檢任務(wù),手機(jī)APP自動(dòng)接收巡檢任務(wù),并一鍵生成巡檢報(bào)告,自動(dòng)評(píng)估巡檢健康度,實(shí)現(xiàn)了流程自動(dòng)化與智能巡檢,與此同時(shí),提升了數(shù)據(jù)中心的安全性,提升整體的運(yùn)行效能。
需要指出的是,數(shù)據(jù)中心的智能自動(dòng)化運(yùn)維并非意味著運(yùn)維中不需要人,而是約有30%-40%的運(yùn)維是標(biāo)準(zhǔn)化工作,不需要人工干預(yù),只要設(shè)置好了參數(shù)和步驟,就能解決問(wèn)題、實(shí)現(xiàn)自動(dòng)化。然而,數(shù)據(jù)中心完全采用人工智能還有一段很長(zhǎng)的路要走——數(shù)據(jù)中心設(shè)備廠(chǎng)商施耐德電氣公司專(zhuān)家指出。
此外,另外60%-70%的工作仍需要有人工介入,因?yàn)檫@一部分工作涉及到非標(biāo)準(zhǔn)化運(yùn)維,此時(shí)考驗(yàn)的正是運(yùn)維團(tuán)隊(duì)的專(zhuān)業(yè)性——在嚴(yán)格執(zhí)行7*24小時(shí)運(yùn)維值班制度、每月一次設(shè)施設(shè)備保養(yǎng)、每季度一次設(shè)備廠(chǎng)家維護(hù)保養(yǎng)等運(yùn)營(yíng)制度之下,開(kāi)普勒數(shù)據(jù)中心提供了完整、高效、可靠的數(shù)據(jù)運(yùn)營(yíng)及網(wǎng)絡(luò)服務(wù)。據(jù)悉,開(kāi)普勒數(shù)據(jù)中心將于8月底投運(yùn)第一批機(jī)架774個(gè)分別在2-3層模塊機(jī)房,平均20A的機(jī)柜,4-7層可提供客戶(hù)定制。
運(yùn)維管理與技術(shù)、服務(wù)實(shí)力相得益彰,缺一不可
誠(chéng)然,百密也難免有一疏。數(shù)據(jù)中心資源的集中化趨勢(shì)顯著,一旦發(fā)生故障,或是一個(gè)漏洞被利用,就可能會(huì)造成數(shù)據(jù)中心較大規(guī)模的數(shù)據(jù)丟失甚至設(shè)備宕機(jī)事故。即使幾分鐘的停機(jī)時(shí)間也可能對(duì)企業(yè)造成災(zāi)難性影響,災(zāi)備應(yīng)急方案對(duì)企業(yè)的穩(wěn)定運(yùn)營(yíng)至關(guān)重要。以開(kāi)普勒數(shù)據(jù)中心為例,真正實(shí)現(xiàn)了高可靠、真雙路市電,并配有2N方式供電的UPS系統(tǒng),而柴油發(fā)電機(jī)也足以提供不低于8小時(shí)的供油能力,制冷系統(tǒng)的冷凍水/冷卻水也采用高可靠性的雙環(huán)路管道。這樣的技術(shù)實(shí)力之下,又嚴(yán)苛遵循每年度兩次消防演練,每年度兩次柴油發(fā)電機(jī)帶載運(yùn)行、每年度一次機(jī)房應(yīng)急演練等規(guī)章制度,客戶(hù)則可高枕無(wú)憂(yōu)地享受數(shù)據(jù)托管服務(wù)。
智能自動(dòng)化運(yùn)維的重要性不言而喻,高效智能的信息化運(yùn)維管理系統(tǒng)也將扮演越來(lái)越重要的角色。然而,信息化運(yùn)維管理系統(tǒng)并不是孤軍作戰(zhàn)的,只有與科學(xué)的設(shè)計(jì)理念、合理的結(jié)構(gòu)布局、雄厚的技術(shù)服務(wù)實(shí)力搭配在一起,相得益彰,才能實(shí)現(xiàn)智能、高效、安全的運(yùn)維目標(biāo)。
開(kāi)普勒數(shù)據(jù)中心正是這樣軟硬實(shí)力兼具的新一代數(shù)據(jù)中心典范。依托合作伙伴中國(guó)電信云網(wǎng)融合戰(zhàn)略,直連163骨干國(guó)際出口,背靠股東佛山電建集團(tuán)安全可靠的電力資源,佛山開(kāi)普勒數(shù)據(jù)中心在設(shè)計(jì)中踐行了 “綠色”、“節(jié)能”、“環(huán)保”的理念,采用了獨(dú)立的油機(jī)樓,高效通風(fēng)及降噪,并借力流動(dòng)動(dòng)力學(xué)原理,輔助了機(jī)房負(fù)載的布局設(shè)計(jì),為未來(lái)福能園區(qū)冷熱電三聯(lián)供接入預(yù)留接口,且空調(diào)冷凝水實(shí)現(xiàn)了回收利用,建設(shè)標(biāo)準(zhǔn)為中國(guó)電信五星級(jí)、T3+機(jī)房,旨在成為珠三角地區(qū)高科技、信息化、綠色環(huán)保的新一代數(shù)據(jù)中心,重要的骨干網(wǎng)絡(luò)節(jié)點(diǎn),面向全省、港澳臺(tái)乃至全國(guó)和東南亞地區(qū),為公眾、政府、企業(yè)提供全方位的數(shù)據(jù)服務(wù)。
運(yùn)維市場(chǎng)價(jià)值凸顯,數(shù)據(jù)中心借力彎道超車(chē)
實(shí)際上,運(yùn)維往往是數(shù)據(jù)中心里最重要的工作,但卻時(shí)常被人所忽略,主要因?yàn)檫\(yùn)維的工作短期看不到收效,只有出了故障時(shí),運(yùn)維才會(huì)被點(diǎn)名背黑鍋。伴隨著大數(shù)據(jù)技術(shù)發(fā)展,特別是新型服務(wù)器的不斷涌現(xiàn),針對(duì)基礎(chǔ)設(shè)施層的要求也越來(lái)越高,數(shù)據(jù)中心安全、穩(wěn)定、可靠、綠色運(yùn)行的基本要求早已難以滿(mǎn)足用戶(hù)需求,運(yùn)營(yíng)商也應(yīng)順勢(shì)而為,積極拓展業(yè)務(wù)范疇,創(chuàng)新運(yùn)維管理模式。
據(jù)《2018年中國(guó)企業(yè)IT運(yùn)維管理市場(chǎng)報(bào)告》顯示,中國(guó)數(shù)據(jù)中心運(yùn)維服務(wù)市場(chǎng)規(guī)模預(yù)計(jì)到2020年將達(dá)到2744.7億元,年復(fù)合增長(zhǎng)率為16.4%。無(wú)疑,智能化將是中國(guó)數(shù)據(jù)中心運(yùn)維管理的必然趨勢(shì),運(yùn)維管理也將從被動(dòng)響應(yīng)變?yōu)橹鲃?dòng)防御,實(shí)現(xiàn)從IT成本中心,向IT服務(wù)中心和IT價(jià)值中心轉(zhuǎn)變,這期間,那些兼具軟硬實(shí)力的數(shù)據(jù)中心將會(huì)一騎絕塵,迅速搶占市場(chǎng)。
相關(guān)推薦
新浪科技訊北京時(shí)間2月28日凌晨消息,的據(jù)國(guó)外媒體周一報(bào)道,戴爾CEO邁克爾·戴爾(MichaelDell)周一表示,戴爾已經(jīng)不再是一家傳統(tǒng)的PC企業(yè),因?yàn)樗行庐a(chǎn)品組合,包括服務(wù)器和服務(wù)。他指出,戴爾已經(jīng)成為了一家“端到端解決方案供應(yīng)商”,而非傳統(tǒng)的電腦制造商。他指出服務(wù)器的利潤(rùn)更加有利可圖,目前該業(yè)務(wù)的營(yíng)收已經(jīng)占據(jù)了戴爾總收入的將近一半。因此與其關(guān)注只有2.5億美元的PC市場(chǎng),戴爾將會(huì)投入更多的精力到擁有2.75萬(wàn)億美元潛力的企業(yè)IT業(yè)務(wù)當(dāng)中去。此前由于該公司最新季度的業(yè)績(jī)不佳,盈利下降了18%,導(dǎo)致前一天有一批分析師紛紛降低了戴爾的評(píng)級(jí)。而戴爾在之后馬上發(fā)表的這番樂(lè)觀言論令外界頗感驚訝。