2017年4月12-13日,2017亞太CDN峰會(huì)在北京隆重召開,大會(huì)由亞太CDN領(lǐng)袖峰會(huì)、國(guó)際CDN論壇、電視新媒體CDN論壇、視頻云論壇、未來網(wǎng)絡(luò)論壇、C未來視頻峰會(huì)、亞太CDN展覽會(huì)等7大部分組成。在未來網(wǎng)絡(luò)論壇上,創(chuàng)新實(shí)驗(yàn)室主任、助理院長(zhǎng)
文勇剛作了題為《“無人”數(shù)據(jù)中心管控和運(yùn)維:
人工智能帶來的變革》的主題報(bào)告。
圖為:創(chuàng)新實(shí)驗(yàn)室主任、助理院長(zhǎng)文勇剛
創(chuàng)業(yè)實(shí)驗(yàn)室的主任和助理院長(zhǎng)文勇剛先生認(rèn)為借助人工智能算法來提升數(shù)據(jù)中心的運(yùn)維和管控能力,來實(shí)現(xiàn)數(shù)據(jù)中心管控的無人化,是目前一個(gè)比較挑戰(zhàn)性的工作。數(shù)據(jù)中心運(yùn)維當(dāng)中能耗較高,以及人工智能在數(shù)據(jù)中心可能的應(yīng)用,他以新加坡落實(shí)這個(gè)模式為例來具體說明這個(gè)問題。 據(jù)統(tǒng)計(jì)國(guó)家超過4萬個(gè)數(shù)據(jù)中心,但是能效標(biāo)準(zhǔn)遠(yuǎn)低于國(guó)際標(biāo)準(zhǔn),全國(guó)的POE占2.2左右,POE就是定義為所有的數(shù)據(jù)中心的能耗/IT設(shè)備能耗,它越小越好,接近于1是最好的。50%的電都拿來做智能。為了推動(dòng)技術(shù)發(fā)展,在2015年發(fā)布了《綠色數(shù)據(jù)中心試點(diǎn)方案》,他表示在新加坡推動(dòng)新加坡政府對(duì)綠色數(shù)據(jù)中心的發(fā)展時(shí),先制定新加坡的綠色數(shù)據(jù)中心標(biāo)準(zhǔn)SS564,最后推動(dòng)了新加坡NIF,相當(dāng)于我們國(guó)家的基金委投入4億接下來做綠色數(shù)據(jù)中心的研究。
傳統(tǒng)數(shù)據(jù)中心能效管理方面三大痛點(diǎn)
文勇剛提出目前在傳統(tǒng)數(shù)據(jù)中心能效管理方面面臨著幾個(gè)比較大的痛點(diǎn),第一是電費(fèi)比較高,大概超過20%所有的數(shù)據(jù)中心成本來源于電費(fèi);第二是協(xié)調(diào)能力比較弱,數(shù)據(jù)中心和業(yè)務(wù)部門分屬不同的分管領(lǐng)導(dǎo),他們的目標(biāo)不一致直接造成的后果,業(yè)務(wù)部門和數(shù)據(jù)中心運(yùn)維部門沒有辦法協(xié)調(diào)起來;第三風(fēng)險(xiǎn)比較高,隨著業(yè)務(wù)對(duì)數(shù)據(jù)中心的依賴性越來越強(qiáng),任何小的改變對(duì)業(yè)務(wù)帶來的風(fēng)險(xiǎn)就比較大,造成大家在業(yè)務(wù)當(dāng)中不愿意采用新的技術(shù)去提升運(yùn)維效率。這是數(shù)據(jù)中心運(yùn)營(yíng)商調(diào)查中發(fā)現(xiàn)很多的問題。最后是要求非常嚴(yán),數(shù)據(jù)中心要求運(yùn)維性能非常高,使得一旦一個(gè)技術(shù)上線以后,很難去改變它?;谶@些給數(shù)據(jù)中心運(yùn)維和改進(jìn)帶來很多麻煩,他們發(fā)現(xiàn)把人工智能算法引入數(shù)據(jù)中心,開發(fā)一套叫Cloud3DView的數(shù)據(jù)中心節(jié)能系統(tǒng)來解決這些麻煩。
數(shù)據(jù)中心節(jié)能系統(tǒng)四大特點(diǎn)
數(shù)據(jù)中心節(jié)能系統(tǒng)四大特點(diǎn)主要是:1.根據(jù)不同的應(yīng)用場(chǎng)景,測(cè)算整體節(jié)能。2.方案主要是基于人工智能的算法和軟件,具有部署快、成本低的特點(diǎn)。3.聯(lián)合優(yōu)化數(shù)據(jù)中心的供冷、配電和IT系統(tǒng)三個(gè)子系統(tǒng),以期能夠達(dá)到一個(gè)總體的優(yōu)化目標(biāo)。4.通過CFD仿真和神經(jīng)網(wǎng)絡(luò)的模擬對(duì)技術(shù)改造,通過新的運(yùn)維模式來提供比較量化的風(fēng)險(xiǎn)評(píng)估和控制達(dá)到解決風(fēng)險(xiǎn)問題的目的。
人工智能和機(jī)器學(xué)習(xí)如何支撐用戶運(yùn)維?在人工智能范疇里面有一個(gè)很重要的部分,叫機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)里面有兩個(gè)主要的模式:監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)是指有標(biāo)注過的機(jī)器學(xué)習(xí),無監(jiān)督學(xué)習(xí)就是沒有標(biāo)注的自主學(xué)習(xí)。在這個(gè)之外還有一個(gè)叫強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)是一個(gè)動(dòng)態(tài)的學(xué)習(xí)過程,是一邊看一邊在學(xué)習(xí)和控制的過程。集中在把強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)結(jié)合的一個(gè)新的模式,叫深度強(qiáng)化學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)比較成功的一個(gè)機(jī)器學(xué)習(xí)的方法。文勇剛舉出兩個(gè)成功的例子,一是AlphaGo打敗李世石,二是最近大家關(guān)注的德州撲克,它們都是用深度強(qiáng)化學(xué)習(xí)的方法,在很多方面衍生這種深度強(qiáng)化學(xué)習(xí),已經(jīng)在很多領(lǐng)域表現(xiàn)出能戰(zhàn)勝人類專家的潛力。這也是我們相信用這個(gè)技術(shù)可以很好地幫我們?nèi)俗鰯?shù)據(jù)中心運(yùn)維,達(dá)到我們以前光靠專家很難達(dá)到的效果?;谏疃葟?qiáng)化學(xué)習(xí),數(shù)據(jù)中心無人管控總體解決方案,它是有兩套系統(tǒng),物理系統(tǒng),物理數(shù)據(jù)中心,通過傳感器采集它的數(shù)據(jù),然后傳輸?shù)轿覚C(jī)器學(xué)習(xí)得出一些結(jié)論和控制算法,
通過這種模擬策略,用算法在一個(gè)3D模型上先進(jìn)行模擬,判斷控制算法會(huì)不會(huì)對(duì)數(shù)據(jù)中心造成大的影響和危害,然后對(duì)這些結(jié)果進(jìn)行可視化。管理人員可以直接看到它的效果,在效果確認(rèn)之后,才會(huì)通過這樣一個(gè)控制策略直接控制物理中心。這是一個(gè)通過深度強(qiáng)化學(xué)習(xí)的方法,把物理系統(tǒng)和模擬系統(tǒng)建立一個(gè)綜合技術(shù),叫做數(shù)字雙身技術(shù),這樣一個(gè)控制流程與原來單一的只控制物理系統(tǒng)比較,帶來的效果會(huì)非常有效,主要體現(xiàn)在風(fēng)險(xiǎn)控制方面優(yōu)先。
兩個(gè)核心技術(shù)
第一,供冷和計(jì)算任務(wù)的聯(lián)合優(yōu)化,通過數(shù)據(jù)采集把數(shù)據(jù)中心里面的參數(shù)采集到計(jì)算引擎里面,然后把它轉(zhuǎn)化成一個(gè)目標(biāo)優(yōu)化的數(shù)學(xué)模型。通過機(jī)器學(xué)習(xí)解決非確定條件下的優(yōu)化過程,可以開發(fā)出一些算法對(duì)數(shù)據(jù)中心有嚴(yán)格的控制,比如提出熱感知管理算法;第二是性能感知管理算法,是基于任務(wù)對(duì)供冷進(jìn)行感知優(yōu)化;第三是成本感知管理算法,對(duì)成本進(jìn)行管理算法,我們開發(fā)這些算法回頭再控制數(shù)據(jù)中心的運(yùn)維。
第二是基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心風(fēng)險(xiǎn)量化和評(píng)估,通過傳感器對(duì)數(shù)據(jù)中心進(jìn)行實(shí)時(shí)的數(shù)據(jù)采集,把數(shù)據(jù)全部放到一個(gè)CFD,第一對(duì)熱動(dòng)力學(xué)進(jìn)行模擬,同時(shí)也是對(duì)他的IT所有的輸入輸出用神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)估,評(píng)估的結(jié)果能看到它在兩部分可能遇到的問題,可以看到對(duì)方如果繼續(xù)使用會(huì)對(duì)數(shù)據(jù)中心帶來的影響,可以考慮能不能持續(xù)操作,這就有一個(gè)風(fēng)險(xiǎn)控制能力在里面。這個(gè)系統(tǒng)的性能指標(biāo),把POE降20%-30%,整個(gè)供冷成本減少達(dá)概到40%,節(jié)約成本10%-35%。
文勇剛表示這個(gè)成果2015年開始做,主要集中在新加坡,他們已經(jīng)建立了一個(gè)比較強(qiáng)的博士研究生和Cloud3DView開發(fā)團(tuán)隊(duì),在新加坡開始試點(diǎn),采用東芝公司提供的集裝箱數(shù)據(jù)平臺(tái)做測(cè)試平臺(tái),在新加坡政府、金寶地產(chǎn)和新電信建的兩個(gè)測(cè)試平臺(tái)試產(chǎn)。這個(gè)算法對(duì)半導(dǎo)體生產(chǎn)企業(yè)和整個(gè)生產(chǎn)線進(jìn)行控制,可以達(dá)到節(jié)省成本的效果。東南亞業(yè)界對(duì)此項(xiàng)技術(shù)十分認(rèn)可,在2015年授予了堪稱數(shù)據(jù)中心行業(yè)的奧斯卡獎(jiǎng)。
至少在觀念上和傳統(tǒng)數(shù)據(jù)中心運(yùn)維有一些差別。在新加坡主要是在政府的支持下做試點(diǎn)和落地,主要建立了云平臺(tái),用SaaS方式幫新加坡政府各個(gè)IT數(shù)據(jù)中心進(jìn)行節(jié)能優(yōu)化,在這個(gè)平臺(tái)上為每個(gè)政府不同部委數(shù)據(jù)中心建立獨(dú)立的平臺(tái),我們按他的每個(gè)項(xiàng)目收一點(diǎn)成本費(fèi)。當(dāng)然現(xiàn)在我們也收建設(shè)費(fèi),如果它對(duì)每個(gè)數(shù)據(jù)基本上是按照每年實(shí)際節(jié)電費(fèi)再收取一點(diǎn)錢,大概現(xiàn)在已經(jīng)有十多個(gè)新加坡不同部委的數(shù)據(jù)中心已經(jīng)聯(lián)到我這個(gè)平臺(tái)上幫他做數(shù)據(jù)中心管控。
文勇剛指出,在全球背景下,從2012年左右開始,在2015年完成第一期的時(shí)候做試點(diǎn),雖然在試點(diǎn)的時(shí)候遇到一些人的挑戰(zhàn),但是到2016年谷歌發(fā)布新聞發(fā)布會(huì),人工智能算法實(shí)現(xiàn)了制冷能耗,能耗節(jié)省高達(dá)40%,取得了較好的成效。他指出現(xiàn)在國(guó)內(nèi)還沒有公司具體做此項(xiàng)工作,主要是和其他公司、包括國(guó)內(nèi)外公司的合作,比如最近正在與新加坡做的聯(lián)合項(xiàng)目。研究如何用人工智能的方法去提高數(shù)據(jù)中心能耗標(biāo)準(zhǔn),同時(shí)對(duì)風(fēng)險(xiǎn)又有一個(gè)比較量化的管理和控制是目前的主要內(nèi)容。