創(chuàng)新實驗室文勇剛:“無人”數(shù)據(jù)中心管控和運維——人工智能帶來的變革
2017-04-13 11:10:01 熱度:
2017年4月12-13日,2017亞太CDN峰會在北京隆重召開,大會由亞太CDN領(lǐng)袖峰會、國際CDN論壇、電視新媒體CDN論壇、視頻云論壇、未來網(wǎng)絡(luò)論壇、C未來視頻峰會、亞太CDN展覽會等7大部分組成。在未來網(wǎng)絡(luò)論壇上,創(chuàng)新實驗室主任、助理院長文勇剛作了題為《“無人”數(shù)據(jù)中心管控和運維:人工智能帶來的變革》的主題報告。

圖為:創(chuàng)新實驗室主任、助理院長文勇剛
創(chuàng)業(yè)實驗室的主任和助理院長文勇剛先生認(rèn)為借助人工智能算法來提升數(shù)據(jù)中心的運維和管控能力,來實現(xiàn)數(shù)據(jù)中心管控的無人化,是目前一個比較挑戰(zhàn)性的工作。數(shù)據(jù)中心運維當(dāng)中能耗較高,以及人工智能在數(shù)據(jù)中心可能的應(yīng)用,他以新加坡落實這個模式為例來具體說明這個問題。 據(jù)統(tǒng)計國家超過4萬個數(shù)據(jù)中心,但是能效標(biāo)準(zhǔn)遠(yuǎn)低于國際標(biāo)準(zhǔn),全國的POE占2.2左右,POE就是定義為所有的數(shù)據(jù)中心的能耗/IT設(shè)備能耗,它越小越好,接近于1是最好的。50%的電都拿來做智能。為了推動技術(shù)發(fā)展,在2015年發(fā)布了《綠色數(shù)據(jù)中心試點方案》,他表示在新加坡推動新加坡政府對綠色數(shù)據(jù)中心的發(fā)展時,先制定新加坡的綠色數(shù)據(jù)中心標(biāo)準(zhǔn)SS564,最后推動了新加坡NIF,相當(dāng)于我們國家的基金委投入4億接下來做綠色數(shù)據(jù)中心的研究。
傳統(tǒng)數(shù)據(jù)中心能效管理方面三大痛點
文勇剛提出目前在傳統(tǒng)數(shù)據(jù)中心能效管理方面面臨著幾個比較大的痛點,第一是電費比較高,大概超過20%所有的數(shù)據(jù)中心成本來源于電費;第二是協(xié)調(diào)能力比較弱,數(shù)據(jù)中心和業(yè)務(wù)部門分屬不同的分管領(lǐng)導(dǎo),他們的目標(biāo)不一致直接造成的后果,業(yè)務(wù)部門和數(shù)據(jù)中心運維部門沒有辦法協(xié)調(diào)起來;第三風(fēng)險比較高,隨著業(yè)務(wù)對數(shù)據(jù)中心的依賴性越來越強,任何小的改變對業(yè)務(wù)帶來的風(fēng)險就比較大,造成大家在業(yè)務(wù)當(dāng)中不愿意采用新的技術(shù)去提升運維效率。這是數(shù)據(jù)中心運營商調(diào)查中發(fā)現(xiàn)很多的問題。最后是要求非常嚴(yán),數(shù)據(jù)中心要求運維性能非常高,使得一旦一個技術(shù)上線以后,很難去改變它。基于這些給數(shù)據(jù)中心運維和改進(jìn)帶來很多麻煩,他們發(fā)現(xiàn)把人工智能算法引入數(shù)據(jù)中心,開發(fā)一套叫Cloud3DView的數(shù)據(jù)中心節(jié)能系統(tǒng)來解決這些麻煩。
數(shù)據(jù)中心節(jié)能系統(tǒng)四大特點
數(shù)據(jù)中心節(jié)能系統(tǒng)四大特點主要是:1.根據(jù)不同的應(yīng)用場景,測算整體節(jié)能。2.方案主要是基于人工智能的算法和軟件,具有部署快、成本低的特點。3.聯(lián)合優(yōu)化數(shù)據(jù)中心的供冷、配電和IT系統(tǒng)三個子系統(tǒng),以期能夠達(dá)到一個總體的優(yōu)化目標(biāo)。4.通過CFD仿真和神經(jīng)網(wǎng)絡(luò)的模擬對技術(shù)改造,通過新的運維模式來提供比較量化的風(fēng)險評估和控制達(dá)到解決風(fēng)險問題的目的。
人工智能和機(jī)器學(xué)習(xí)如何支撐用戶運維?在人工智能范疇里面有一個很重要的部分,叫機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)里面有兩個主要的模式:監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)是指有標(biāo)注過的機(jī)器學(xué)習(xí),無監(jiān)督學(xué)習(xí)就是沒有標(biāo)注的自主學(xué)習(xí)。在這個之外還有一個叫強化學(xué)習(xí),強化學(xué)習(xí)是一個動態(tài)的學(xué)習(xí)過程,是一邊看一邊在學(xué)習(xí)和控制的過程。集中在把強化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)結(jié)合的一個新的模式,叫深度強化學(xué)習(xí)。深度強化學(xué)習(xí)比較成功的一個機(jī)器學(xué)習(xí)的方法。文勇剛舉出兩個成功的例子,一是AlphaGo打敗李世石,二是最近大家關(guān)注的德州撲克,它們都是用深度強化學(xué)習(xí)的方法,在很多方面衍生這種深度強化學(xué)習(xí),已經(jīng)在很多領(lǐng)域表現(xiàn)出能戰(zhàn)勝人類專家的潛力。這也是我們相信用這個技術(shù)可以很好地幫我們?nèi)俗鰯?shù)據(jù)中心運維,達(dá)到我們以前光靠專家很難達(dá)到的效果。基于深度強化學(xué)習(xí),數(shù)據(jù)中心無人管控總體解決方案,它是有兩套系統(tǒng),物理系統(tǒng),物理數(shù)據(jù)中心,通過傳感器采集它的數(shù)據(jù),然后傳輸?shù)轿覚C(jī)器學(xué)習(xí)得出一些結(jié)論和控制算法,
通過這種模擬策略,用算法在一個3D模型上先進(jìn)行模擬,判斷控制算法會不會對數(shù)據(jù)中心造成大的影響和危害,然后對這些結(jié)果進(jìn)行可視化。管理人員可以直接看到它的效果,在效果確認(rèn)之后,才會通過這樣一個控制策略直接控制物理中心。這是一個通過深度強化學(xué)習(xí)的方法,把物理系統(tǒng)和模擬系統(tǒng)建立一個綜合技術(shù),叫做數(shù)字雙身技術(shù),這樣一個控制流程與原來單一的只控制物理系統(tǒng)比較,帶來的效果會非常有效,主要體現(xiàn)在風(fēng)險控制方面優(yōu)先。
兩個核心技術(shù)
第一,供冷和計算任務(wù)的聯(lián)合優(yōu)化,通過數(shù)據(jù)采集把數(shù)據(jù)中心里面的參數(shù)采集到計算引擎里面,然后把它轉(zhuǎn)化成一個目標(biāo)優(yōu)化的數(shù)學(xué)模型。通過機(jī)器學(xué)習(xí)解決非確定條件下的優(yōu)化過程,可以開發(fā)出一些算法對數(shù)據(jù)中心有嚴(yán)格的控制,比如提出熱感知管理算法;第二是性能感知管理算法,是基于任務(wù)對供冷進(jìn)行感知優(yōu)化;第三是成本感知管理算法,對成本進(jìn)行管理算法,我們開發(fā)這些算法回頭再控制數(shù)據(jù)中心的運維。
第二是基于深度強化學(xué)習(xí)的數(shù)據(jù)中心風(fēng)險量化和評估,通過傳感器對數(shù)據(jù)中心進(jìn)行實時的數(shù)據(jù)采集,把數(shù)據(jù)全部放到一個CFD,第一對熱動力學(xué)進(jìn)行模擬,同時也是對他的IT所有的輸入輸出用神經(jīng)網(wǎng)絡(luò)進(jìn)行評估,評估的結(jié)果能看到它在兩部分可能遇到的問題,可以看到對方如果繼續(xù)使用會對數(shù)據(jù)中心帶來的影響,可以考慮能不能持續(xù)操作,這就有一個風(fēng)險控制能力在里面。這個系統(tǒng)的性能指標(biāo),把POE降20%-30%,整個供冷成本減少達(dá)概到40%,節(jié)約成本10%-35%。
文勇剛表示這個成果2015年開始做,主要集中在新加坡,他們已經(jīng)建立了一個比較強的博士研究生和Cloud3DView開發(fā)團(tuán)隊,在新加坡開始試點,采用東芝公司提供的集裝箱數(shù)據(jù)平臺做測試平臺,在新加坡政府、金寶地產(chǎn)和新電信建的兩個測試平臺試產(chǎn)。這個算法對半導(dǎo)體生產(chǎn)企業(yè)和整個生產(chǎn)線進(jìn)行控制,可以達(dá)到節(jié)省成本的效果。東南亞業(yè)界對此項技術(shù)十分認(rèn)可,在2015年授予了堪稱數(shù)據(jù)中心行業(yè)的奧斯卡獎。
至少在觀念上和傳統(tǒng)數(shù)據(jù)中心運維有一些差別。在新加坡主要是在政府的支持下做試點和落地,主要建立了云平臺,用SaaS方式幫新加坡政府各個IT數(shù)據(jù)中心進(jìn)行節(jié)能優(yōu)化,在這個平臺上為每個政府不同部委數(shù)據(jù)中心建立獨立的平臺,我們按他的每個項目收一點成本費。當(dāng)然現(xiàn)在我們也收建設(shè)費,如果它對每個數(shù)據(jù)基本上是按照每年實際節(jié)電費再收取一點錢,大概現(xiàn)在已經(jīng)有十多個新加坡不同部委的數(shù)據(jù)中心已經(jīng)聯(lián)到我這個平臺上幫他做數(shù)據(jù)中心管控。
文勇剛指出,在全球背景下,從2012年左右開始,在2015年完成第一期的時候做試點,雖然在試點的時候遇到一些人的挑戰(zhàn),但是到2016年谷歌發(fā)布新聞發(fā)布會,人工智能算法實現(xiàn)了制冷能耗,能耗節(jié)省高達(dá)40%,取得了較好的成效。他指出現(xiàn)在國內(nèi)還沒有公司具體做此項工作,主要是和其他公司、包括國內(nèi)外公司的合作,比如最近正在與新加坡做的聯(lián)合項目。研究如何用人工智能的方法去提高數(shù)據(jù)中心能耗標(biāo)準(zhǔn),同時對風(fēng)險又有一個比較量化的管理和控制是目前的主要內(nèi)容。
責(zé)任編輯:方珍