一轉(zhuǎn)眼,2020年就到來了。對于數(shù)據(jù)中心產(chǎn)業(yè)來說,2020年將是充滿希望和收獲的一年,同時也是在綠色節(jié)能方面壓力更大的一年。與數(shù)年前各地?zé)崃覛g迎“高科技”產(chǎn)業(yè)的盛況相反,如今的數(shù)據(jù)中心“高能耗”產(chǎn)業(yè)名聲在外。如何平衡高速數(shù)字化發(fā)展對數(shù)據(jù)中心的需求,和數(shù)據(jù)中心給能源、環(huán)保帶來的壓力,是產(chǎn)業(yè)亟需解決的問題。
從社會能耗的角度看,包括我國在內(nèi)的世界各國都在倡導(dǎo)低PUE的綠色中心建設(shè)。去年年初,工信部等三部門聯(lián)手發(fā)布了《關(guān)于加強(qiáng)綠色數(shù)據(jù)中心建設(shè)的指導(dǎo)意見》,推動全國數(shù)據(jù)中心向節(jié)能綠色發(fā)展。在這前后,北京、上海、深圳等核心大城市紛紛出臺了相關(guān)的產(chǎn)業(yè)政策,嚴(yán)控數(shù)據(jù)中心PUE數(shù)值,最低標(biāo)準(zhǔn)已經(jīng)達(dá)到了1.30(深圳地區(qū)甚至有1.25的相關(guān)指標(biāo)),這對現(xiàn)今的數(shù)據(jù)中心設(shè)計、建設(shè)和運維是不折不扣的重大挑戰(zhàn)。
從數(shù)據(jù)中心本身來看,能源支出一直是數(shù)據(jù)中心運營成本的大頭。根據(jù)2015年至2019年期間進(jìn)行的相關(guān)研究表明,數(shù)據(jù)中心電力成本大約占運營成本的35%至40%。如果對一個典型的大型數(shù)據(jù)中心能耗進(jìn)行整體分析便可以發(fā)現(xiàn),IT系統(tǒng)之外的能源消耗占比大的就是制冷系統(tǒng)。因此,破解用電瓶頸、降低數(shù)據(jù)中心能耗的關(guān)鍵在于提升制冷系統(tǒng)效率。
降低PUE值本意就是削減IT系統(tǒng)之外的能源消耗,如果數(shù)據(jù)中心的PUE由1.80(2017年全球平均水平)下降到1.30,則意味著IT系統(tǒng)之外的能耗降低了62.5%,整體電力成本則削減了28%。從這里可以看出,控制PUE無疑是節(jié)省成本最有效、直觀的途徑。
“PUE”靠得住么?
而對于“唯PUE”論,行業(yè)內(nèi)也開始了有了不同的聲音。眾所周知,PUE是衡量數(shù)據(jù)中心非IT系統(tǒng)能耗占比的一個數(shù)值。通過良好設(shè)計與建設(shè)的數(shù)據(jù)中心,采用合適的散熱方案,以及精細(xì)化運維,理論PUE數(shù)值可以降到1.1甚至更少。不過在實際運營中,大部分?jǐn)?shù)據(jù)中心是無法達(dá)到理論PUE值的。機(jī)架空載、業(yè)務(wù)波動、氣溫變化等等均可能影響到數(shù)據(jù)中心的PUE值。
按PUE計算的數(shù)據(jù)中心制冷功耗的平均比例
IT核心系統(tǒng)用電不能缺少,辦公、照明等系統(tǒng)耗電比例較低,所以降低PUE本質(zhì)上就是降低制冷系統(tǒng)的能耗。但制冷系統(tǒng)的調(diào)整對于整個數(shù)據(jù)中心溫度的影響并非線性的,簡單的減少制冷系統(tǒng)功率,對于數(shù)據(jù)中心這樣的復(fù)雜體系來說,可能造成不可預(yù)估的后果。
IT系統(tǒng)運行需要一個適宜的溫度,目前大部分?jǐn)?shù)據(jù)中心服務(wù)器溫度都控制的很嚴(yán)格,遠(yuǎn)低于國家標(biāo)準(zhǔn)以及行業(yè)組織的推薦值。之所以如此,是因為在某些因素影響下,當(dāng)大部分服務(wù)器處在合理溫度區(qū)間內(nèi)時,部分服務(wù)器卻會偶然出現(xiàn)過熱的情況。而一旦溫度超出了服務(wù)器的工作極限,就必然面臨出錯、宕機(jī)等故障。
與此同時,還要考慮到IT系統(tǒng)在不同溫度下工作的效能問題。機(jī)房溫度提升1℃,不等于服務(wù)器就同樣提高1℃并且照常運行。相反,可能觸發(fā)服務(wù)器本身的散熱、保護(hù)系統(tǒng)等,比如服務(wù)器、機(jī)柜風(fēng)扇從待機(jī)到運行。最終結(jié)果是服務(wù)器的效率沒有提升,機(jī)柜的整體功耗卻有增長。這樣看來,PUE是否還有降低空間需要更加復(fù)雜的整體測算。
最后一個問題是,PUE本身只是一個計算數(shù)字,最終決定PUE是否“靠譜”的其實是運維人員本身。雖然運維人員可以掌握機(jī)房各方面的信息,但在各種復(fù)雜信息的干擾下,任何微小的調(diào)整,都會對機(jī)房這個非線性系統(tǒng)帶來不可預(yù)估的后果。當(dāng)然,運維工程師也可以考慮通過一套完備的公式來預(yù)測調(diào)整效果,但目前看,還沒有這樣可以完善囊括機(jī)房所有影響因素的計算公式,人力也無法時刻準(zhǔn)確關(guān)注如此復(fù)雜的環(huán)境變化。
所以,目前數(shù)據(jù)中心對PUE以及制冷系統(tǒng)的調(diào)整,還處在經(jīng)驗以及“拍腦袋”共用的“混沌”狀態(tài)。而數(shù)據(jù)中心數(shù)十年的發(fā)展歷史告訴我們,人工運維失誤,永遠(yuǎn)是導(dǎo)致數(shù)據(jù)中心系統(tǒng)宕機(jī)的第一因素。
這時,就需要AI來救場了。
iCooling應(yīng)需而生
廊坊,北臨京都,東接天津,素有“京津走廊明珠”之稱,很多影響京津冀的產(chǎn)業(yè)核心也往往落地于此。華為公有云的北方基地、華北地區(qū)數(shù)據(jù)樞紐-廊坊云數(shù)據(jù)中心即建設(shè)在這里。目前,華為廊坊云數(shù)據(jù)中心已投產(chǎn)4500個容量IT負(fù)載為36兆瓦的機(jī)架,可容納近10萬臺服務(wù)器,巨額電力消耗帶來的運營成本居高不下。
華為廊坊云數(shù)據(jù)中心在下一個十年中容量將增長10倍,并將能夠容納100萬個服務(wù)器單元。屆時的電力需求將有10倍甚至更多的增長,不僅華為每年要為此付出數(shù)額巨大的電費,也會給園區(qū)供電帶來難以預(yù)估的壓力。
節(jié)能減排,控制成本是亟需解決的問題。華為廊坊云數(shù)據(jù)中心采用了目前所有常見的先進(jìn)節(jié)能措施,包括行級精密空調(diào)、高效供配電,冷熱通道隔離等。在最新的方案還將部署間接蒸發(fā)式自然冷卻(IEC)系統(tǒng)——這是一種新型的自然冷卻(間接蒸發(fā))系統(tǒng),可以高效的利用外部冷源,大幅降低制冷系統(tǒng)的電力消耗。
如前文所說,傳統(tǒng)的制冷系統(tǒng)管理雖然久經(jīng)驗證,但高度依賴運維人員的經(jīng)驗,從整體看缺乏靈活性和精確性。為了保障服務(wù)器的安全運行,大多數(shù)機(jī)房溫度冗余范圍很大,必然導(dǎo)致能效降低。而復(fù)雜的體系,也限制了運維調(diào)整空間,只能在幾個固定模式之間切換,無法根據(jù)系統(tǒng)的實際用量做出精確的調(diào)整。
為了解決這一問題,華為引入了基于AI的系統(tǒng)控制方案——iCooling。
“驗證”引領(lǐng)“普惠”
華為并不是第一個利用AI來控制制冷系統(tǒng)的,谷歌在過去十年中一直嘗試使用DeepMind AI讓AI系統(tǒng)負(fù)責(zé)部分?jǐn)?shù)據(jù)中心的用電來減少數(shù)據(jù)中心的能源費用。據(jù)谷歌透露,截止2014年,AI幫助其數(shù)據(jù)中心的平均PUE達(dá)到1.12,此后幾年均保持并降低了這一平均值,每年因此可節(jié)省40%的制冷費用。按照PUE 1.12計算,不考慮辦公、照明系統(tǒng)的情況下,相當(dāng)于節(jié)省了近4.8%的電力支出。
在國內(nèi),華為無疑是在這條探索的道路上走的最遠(yuǎn)的一個,并且取得了令人滿意的階段性成果。2018年5月,華為iCooling解決方案首次被部署在華為廊坊云數(shù)據(jù)中心的1500個機(jī)架上。目前該試點區(qū)域(1500個機(jī)架)的年平均PUE已降低至1.3以下,節(jié)省了8%的電力消耗。
AI調(diào)控機(jī)房環(huán)境,就原理來說與運維工程師的做法并無二致,同樣是通過調(diào)整制冷系統(tǒng)比如出風(fēng)溫度來影響整個機(jī)房的溫度。只不過對于人類來說難以同時監(jiān)控并且做出應(yīng)對大量系統(tǒng)參數(shù)的變化,AI處理起來不過是舉手之勞。真正的難點在于,當(dāng)調(diào)整了其中一個參數(shù)時,系統(tǒng)中的其它參數(shù)將做出如何改變,又應(yīng)該如何配合。在目前的運維體系中沒有現(xiàn)成的公式或算法可參考。
大數(shù)據(jù)與AI的結(jié)合,是尋找這種算法的利器。通過使用海量的歷史數(shù)據(jù)來訓(xùn)練AI神經(jīng)網(wǎng)絡(luò),讓AI通過機(jī)器學(xué)習(xí)算法,分析PUE與數(shù)據(jù)中心內(nèi)具體組件生成的數(shù)據(jù)之間的聯(lián)系,以發(fā)現(xiàn)不同設(shè)備與不同系統(tǒng)參數(shù)對系統(tǒng)整體的影響。最后,通過建立數(shù)學(xué)模型,以大量傳感器數(shù)據(jù)作為輸入?yún)?shù),最終找到實現(xiàn)所需結(jié)果的最佳配置。
在華為廊坊云數(shù)據(jù)中心,iCooling從700多個監(jiān)控點、傳感器中收集數(shù)據(jù),分析這些數(shù)據(jù)與系統(tǒng)PUE數(shù)值、能效之間的關(guān)聯(lián)度,并成功識別出最重要的21類變量?;谶@21類變量,華為iCooling訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),建立動態(tài)PUE模型。訓(xùn)練后的PUE模型預(yù)測準(zhǔn)確性達(dá)到了99.5%,誤差僅為0.005。利用該模型,邊緣AI推理平臺(Atlas 200)可在1分鐘內(nèi)從140萬中初始組合中找出最佳的制冷策略,其準(zhǔn)確性和速度已遠(yuǎn)超出具經(jīng)驗的數(shù)據(jù)中心工程師的能力
打敗“人類”只是第一步,AI下一步目標(biāo)是提升整個制冷系統(tǒng)的智能化程度。目前通常整個機(jī)房的制冷都基于統(tǒng)一的制冷或散熱的設(shè)備,不能做到單體控制。即使對機(jī)房、供電等部分單獨供冷,也很難做到保證每一個單元都運行在最優(yōu)溫度區(qū)間內(nèi)。智能化的制冷系統(tǒng)將根據(jù)每個單元的需求,自行調(diào)節(jié)供冷功率,大化的降低損耗。
當(dāng)然,AI在數(shù)據(jù)中心的應(yīng)用遠(yuǎn)不止調(diào)整PUE這一個選項。在運維、風(fēng)險管理、安全管理等方面,AI也將發(fā)揮重大的作用。不過就目前來講,雖然大多數(shù)數(shù)據(jù)中心企業(yè)表現(xiàn)出了對AI的興趣,但缺乏實踐的現(xiàn)狀,讓AI普及的廣度、深度均不及預(yù)期。
好在有眾多類似華為這樣的企業(yè),以自身業(yè)務(wù)為基礎(chǔ),積極推進(jìn)AI實踐,為業(yè)界提供可參考的案例。如河南聯(lián)通中原基地、寧夏移動中衛(wèi)數(shù)據(jù)中心等項目中也都有了AI節(jié)能方面的應(yīng)用,樹立了綠色數(shù)據(jù)中心的新標(biāo)桿。
相信隨著iCooling以及一系列AI技術(shù)在數(shù)據(jù)中心運營和管理中的作用越來越廣泛,“智能運維”、“無人值守”等概念不再只是被反復(fù)提及的“熱詞”。
數(shù)據(jù)中心只是AI的落腳點之一,在各行各業(yè)中AI均能發(fā)揮出人力所無法達(dá)到的作用。例如iCooling還可用于智能樓宇能源管理,可以監(jiān)控和優(yōu)化工業(yè)園區(qū)、大學(xué)和校園的用電情況,從能源角度打造真正的“智慧園區(qū)”。只有不斷將類似的技術(shù)或者理念深入到生活、生產(chǎn)中的方方面面,AI的普惠之路才真正延伸到人類社會中。