數(shù)據(jù)中心液體冷卻方案正在興起的五大原因
當(dāng)前,那些在傳統(tǒng)上曾經(jīng)主要是被用于大型主機(jī)和學(xué)術(shù)型超級(jí)計(jì)算機(jī)的液體冷卻方案可能很快就會(huì)滲透到更多的企業(yè)級(jí)數(shù)據(jù)中心了。現(xiàn)如今,有鑒于新的、要求更高的企業(yè)工作負(fù)載正在持續(xù)的推高數(shù)據(jù)中心服務(wù)器機(jī)架的功率密度,使得企業(yè)數(shù)據(jù)中心的管理運(yùn)營(yíng)人員們迫切需要尋找比空氣冷卻系統(tǒng)更有效的替代方案。
我們已經(jīng)采訪了一系列的數(shù)據(jù)中心操作運(yùn)營(yíng)人員和供應(yīng)商,詢(xún)問(wèn)了他們關(guān)于將液體冷卻方案推廣到主流應(yīng)用的看法。受訪者中的一部分人并不想透露其所在數(shù)據(jù)中心所采用的具體的應(yīng)用程序,并聲稱(chēng)他們將這些工作負(fù)載及其冷卻方式視為其所在企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
一系列的超大規(guī)模云服務(wù)運(yùn)營(yíng)商,包括諸如微軟、谷歌的母公司Alphabet、臉書(shū)Facebook和百度,已經(jīng)組建起了一只專(zhuān)門(mén)致力于打造采用液體冷卻服務(wù)器機(jī)架的開(kāi)放式規(guī)范的群體,但該群體目前并沒(méi)有說(shuō)明他們將會(huì)使用的具體方案。然而,在這些超大規(guī)模數(shù)據(jù)中心中,至少有一類(lèi)工作負(fù)載明顯需要采用液體冷卻方案,即:由GPU加速的機(jī)器學(xué)習(xí)系統(tǒng)(或者對(duì)于谷歌公司而言,便是其最新的TPU張量處理器,該公司曾公開(kāi)表示其TPU現(xiàn)在使用的是直接冷卻芯片的液體冷卻設(shè)計(jì))。
盡管當(dāng)前的企業(yè)數(shù)據(jù)中心運(yùn)營(yíng)商們對(duì)于液體冷卻方案的采用這一主題感到疑慮和擔(dān)憂,但目前已經(jīng)有一些使用趨勢(shì)開(kāi)始出現(xiàn)了。如果您企業(yè)在數(shù)據(jù)中心支持以下任何工作負(fù)載,那么您的數(shù)據(jù)中心在未來(lái)也可能采用液體冷卻方案:
1、AI和加速器
近年來(lái),由摩爾定律所描述的年度CPU性能增長(zhǎng)的速率已經(jīng)呈現(xiàn)出大幅放緩的趨勢(shì)。部分的原因是由于加速器處理器(主要是GPU),以及FPGA和專(zhuān)用ASIC正越來(lái)越多地進(jìn)入企業(yè)數(shù)據(jù)中心。
GPU驅(qū)動(dòng)的機(jī)器學(xué)習(xí)可能是除HPC(高性能計(jì)算)領(lǐng)域之外最為常見(jiàn)的硬件加速使用案例。然而,在由市場(chǎng)調(diào)研機(jī)構(gòu)451 Research最近所進(jìn)行的一項(xiàng)調(diào)查中,大約有三分之一的IT服務(wù)提供商表示說(shuō),他們所在的企業(yè)計(jì)劃在在線數(shù)據(jù)挖掘、分析、工程模擬、視頻、其他實(shí)時(shí)媒體、欺詐檢測(cè)、負(fù)載平衡以及類(lèi)似延遲敏感的服務(wù)中采用該加速系統(tǒng)。
硬件加速器具有比CPU高得多的熱設(shè)計(jì)點(diǎn)(TDP,thermal design points),通常需要消耗200W或更多的功率來(lái)對(duì)其實(shí)施冷卻;而添加高性能服務(wù)器CPU,那么您企業(yè)數(shù)據(jù)中心的一款單一的系統(tǒng)就將需要超過(guò)1kW的功率來(lái)對(duì)其實(shí)施冷卻。
英特爾公司也在積極的突破其傳統(tǒng)設(shè)計(jì)的服務(wù)器處理器的150W功率的限制。 “越來(lái)越多的企業(yè)客戶(hù)想要更強(qiáng)大的芯片產(chǎn)品,我們開(kāi)始看到這些芯片產(chǎn)品所消耗的功率瓦特?cái)?shù)量正在逐漸上升。”來(lái)自Uptime Institute的執(zhí)行董事安迪勞倫斯(Andy Lawrence)表示說(shuō)。
當(dāng)前企業(yè)數(shù)據(jù)中心服務(wù)器的機(jī)架密度正在不斷上升。大多數(shù)數(shù)據(jù)中心正常運(yùn)行軌道上現(xiàn)在至少有一些超過(guò)10kW的機(jī)架,而20%的機(jī)架上甚至還有30kW或更高功率密度的機(jī)架。但這些工作負(fù)載并不被視為高性能計(jì)算。“他們只是表示他們的工作負(fù)載有更高密度的機(jī)架而已。”勞倫斯表示說(shuō)。
“如果將GPU與英特爾處理器放在一起,他們的功率密度可能會(huì)達(dá)到以前的三倍。”他說(shuō)。液體冷卻方案顯然非常適合這些加速器,特別是浸入式冷卻方案,可以冷卻GPU和CPU。
2、冷卻高密度存儲(chǔ)
隨著當(dāng)前企業(yè)數(shù)據(jù)中心的存儲(chǔ)密度的持續(xù)增加,可能會(huì)使得有效的冷卻存儲(chǔ)變得更加困難。數(shù)據(jù)中心所安裝的大部分存儲(chǔ)容量都是由非密封的硬盤(pán)驅(qū)動(dòng)器所組成的,不能采用液體冷卻方案。然而,較新的技術(shù)在這方面則為業(yè)界的企業(yè)用戶(hù)們帶來(lái)了希望。例如,固態(tài)的驅(qū)動(dòng)器可以使用全浸入式的解決方案進(jìn)行冷卻。此外,在最新一代的存儲(chǔ)硬件中創(chuàng)建支持高密度,高速讀/寫(xiě)頭的氦氣要求密封單元,使其適用于液體冷卻方案。
正如在451 Research所發(fā)布的報(bào)告中所指出的那樣,固態(tài)硬盤(pán)和充滿(mǎn)氦氣的硬盤(pán)驅(qū)動(dòng)器的組合意味著無(wú)需將空氣冷卻存儲(chǔ)與液體冷卻處理方式分開(kāi)。硬盤(pán)驅(qū)動(dòng)器的可靠性的提升還帶了一大益處,即:在冷卻液中浸入驅(qū)動(dòng)器可以有助于減少熱量和濕度對(duì)組件的影響。
3、網(wǎng)絡(luò)邊緣計(jì)算
減少當(dāng)前和未來(lái)應(yīng)用程序延遲的需求進(jìn)一步的推動(dòng)了對(duì)網(wǎng)絡(luò)邊緣新一代數(shù)據(jù)中心的需求。這些可以是在無(wú)線塔、工廠操作車(chē)間或零售店中所部署的高密度的遠(yuǎn)程設(shè)施。而且這些設(shè)施可能會(huì)越來(lái)越多地托管高密度的計(jì)算硬件,例如用于機(jī)器學(xué)習(xí)的GPU打包集群。
雖然并非所有的邊緣數(shù)據(jù)中心都是采用的液體冷卻的方案,但許多邊緣數(shù)據(jù)中心將被設(shè)計(jì)用于支持在無(wú)法使用傳統(tǒng)冷卻方案的密閉空間中的繁重工作負(fù)載,或者在沒(méi)有使用傳統(tǒng)的先決條件的新部署環(huán)境中實(shí)施冷卻。由于降低了能耗,液體冷卻方案使得在沒(méi)有大容量供電的地方更容易部署邊緣站點(diǎn)。
而根據(jù)勞倫斯的預(yù)計(jì)介紹,多達(dá)20%的邊緣數(shù)據(jù)中心可以使用液體冷卻方案。他設(shè)想遠(yuǎn)程的微模塊化高密度數(shù)據(jù)中心站點(diǎn)支持每臺(tái)機(jī)架40kW。
4、高頻交易和區(qū)塊鏈
許多現(xiàn)代金融服務(wù)行業(yè)企業(yè)的工作負(fù)載都是計(jì)算密集型的,需要高性能的CPU以及GPU。這些工作負(fù)載包括高頻交易系統(tǒng)和基于區(qū)塊鏈的應(yīng)用程序,如智能合約和加密貨幣。
例如,綠色革命冷卻技術(shù)公司(GRC,Green Revolution Cooling)的某家企業(yè)客戶(hù)便是一家高頻交易公司,該企業(yè)客戶(hù)公司正在測(cè)試其浸入式冷卻解決方案。當(dāng)綠色革命冷卻技術(shù)公司推出了用于加密貨幣采礦的浸入式冷卻產(chǎn)品,同時(shí)比特幣的價(jià)格也從2017年底開(kāi)始飆升時(shí),該公司也經(jīng)歷了有史以來(lái)最大幅度的銷(xiāo)售飆升。
GRC的首席執(zhí)行官Peter Poulin告訴記者說(shuō),GRC公司的另一家位于特立尼達(dá)和多巴哥的企業(yè)客戶(hù)正在以每臺(tái)機(jī)架100kW的功率運(yùn)行加密貨幣服務(wù),并將一個(gè)溫水冷卻回路連接到蒸發(fā)塔。由于溫水冷卻比冷水冷卻方案更加節(jié)能,因此該冷卻方案可以在沒(méi)有機(jī)械冷卻器的熱帶環(huán)境條件下正常運(yùn)行。
5、傳統(tǒng)冷卻方案的成本費(fèi)用昂貴
當(dāng)基于空氣的冷卻系統(tǒng)無(wú)法處理高密度的冷卻需求時(shí),液體冷卻方案便開(kāi)始凸顯出其意義了。
例如,地球科學(xué)公司CGG使用了GRC的浸入式液體冷卻系統(tǒng),以便為其位于休斯頓的數(shù)據(jù)中心提供冷卻降溫,CGG在該數(shù)據(jù)中心主要進(jìn)行地震相關(guān)數(shù)據(jù)的處理分析工作,他們?cè)谏逃梅?wù)器上使用的是功能強(qiáng)大的GPU,每臺(tái)機(jī)架消耗高達(dá)23kW的功率。這種功率密度是相對(duì)較高的,但這種密度通常采用的是空氣冷卻方案。CGG的高級(jí)系統(tǒng)部門(mén)經(jīng)理Ted Barragy表示說(shuō):“我們將沉重的計(jì)算服務(wù)器放入沉浸式水箱進(jìn)行冷卻。但事實(shí)上,與其說(shuō)是此舉是為了滿(mǎn)足應(yīng)用程序的工作負(fù)載,還不如說(shuō)沉浸液體冷卻方案更符合成本經(jīng)濟(jì)。
在其升級(jí)過(guò)程中,浸入式的液體冷卻方案取代了CGG公司舊數(shù)據(jù)中心過(guò)去所采用的傳統(tǒng)冷卻設(shè)備。根據(jù)Barragy的介紹,由于進(jìn)行了升級(jí),該團(tuán)隊(duì)恢復(fù)了幾兆瓦的電力容量。“即使在添加了服務(wù)器和沉浸式水箱幾年之后,我們?nèi)匀粨碛邪胝淄叩碾娏Y源尚未使用。”他說(shuō)。“這是一個(gè)老舊的傳統(tǒng)數(shù)據(jù)中心,其大約有一半的功率消耗都用于低效的空氣冷卻系統(tǒng)。”
Barragy還表示,浸入式冷卻數(shù)據(jù)中心的PUE值大約為1.05。這比該公司位于休斯頓的另一處新建的、但卻采用的是空氣冷卻方案的數(shù)據(jù)中心的冷卻效率更高,后者的PUE值為1.35。
“很多人認(rèn)為這種液體冷卻僅僅只是適合于每臺(tái)機(jī)架的計(jì)算功率密度真正達(dá)到60kW至100kW的高密度的冷卻解決方案,但對(duì)于我們的主流企業(yè)客戶(hù)來(lái)說(shuō),該方案還有其他方面的顯著優(yōu)勢(shì),”Poulin說(shuō)。
來(lái)自Uptime Institute的首席技術(shù)官克里斯布朗(Chris Brown)表示說(shuō),他們目前已經(jīng)看到業(yè)界對(duì)于液體冷卻方案的興趣的普遍增加。而這正是由當(dāng)前企業(yè)數(shù)據(jù)中心迫切要求實(shí)現(xiàn)更高的能效和更低的運(yùn)營(yíng)成本所推動(dòng)的。
“液體冷卻方案這方面的重點(diǎn)不再是圍繞著超高密度,而是一般的企業(yè)級(jí)數(shù)據(jù)中心的運(yùn)營(yíng)管理人員們可以用于冷卻任何IT資產(chǎn)的方案。”他說(shuō)。“該方案目前正在進(jìn)入更常見(jiàn)的密度解決方案和更多普通的數(shù)據(jù)中心。”
相關(guān)推薦
本文介紹介紹了10大前沿運(yùn)營(yíng)商級(jí)網(wǎng)絡(luò)技術(shù):GPON,云計(jì)算,云手機(jī),CDN,集裝箱數(shù)據(jù)中心,高壓直流供電,蒸發(fā)式冷卻,風(fēng)光互補(bǔ)基站,RFID。一、GPONGPON技術(shù)發(fā)源于1995年形成的ATMPON(既APON),最早由FSAN標(biāo)準(zhǔn)組織提出,經(jīng)ITU-T指定,2004年形成最終標(biāo)準(zhǔn)。一直與EPON處于競(jìng)爭(zhēng)地位。在亞太地區(qū)一直被壓制,2010年開(kāi)始發(fā)力,目前新增份額已經(jīng)開(kāi)始超越EPON。中移動(dòng)專(zhuān)寵GPON,中電信、中聯(lián)通也開(kāi)始青睞GPON。GPON為運(yùn)營(yíng)商提供了更大的分光比、2倍于EPON的下行帶寬,在FTTH中優(yōu)勢(shì)尤為明顯。中國(guó)移動(dòng)研究院網(wǎng)絡(luò)研究所所長(zhǎng)助理李晗——“GPON的DFB+APD提
對(duì)話嘉賓:日電通信有限公司常務(wù)副總裁 丁偉日電通信有限公司運(yùn)營(yíng)商事業(yè)推進(jìn)部高級(jí)經(jīng)理 孫毅近兩年,SDN(Software Defined Network)引...
隨著企業(yè)的高速發(fā)展和經(jīng)營(yíng)對(duì)數(shù)據(jù)依賴(lài)性的增長(zhǎng),數(shù)據(jù)中心向著更大容量、更高能力、超大規(guī)模、多種業(yè)務(wù)模式和運(yùn)營(yíng)模式共存的方向發(fā)展。與此同時(shí),DDoS攻擊、黑客入侵等為數(shù)據(jù)中心網(wǎng)絡(luò)安全帶來(lái)了嚴(yán)峻的挑戰(zhàn)。而華為認(rèn)為:在數(shù)據(jù)中心安全防護(hù)解決方案中融入分區(qū)設(shè)計(jì)理念,能夠有效保障數(shù)據(jù)中心的網(wǎng)絡(luò)安全防護(hù)。數(shù)據(jù)中心嚴(yán)峻的安全挑戰(zhàn)目前,DDoS攻擊已經(jīng)成為數(shù)