項(xiàng)目概況
項(xiàng)目背景
某知名AI企業(yè)正在建設(shè)基礎(chǔ)硬件平臺,目的是為科研機(jī)構(gòu)、初創(chuàng)企業(yè)和開發(fā)者提供靈活的算力支持,構(gòu)建互聯(lián)互通的AI創(chuàng)新生態(tài),推動民生應(yīng)用發(fā)展。
隨著越來越多AI初創(chuàng)者的加入和越來越多大模型方向的項(xiàng)目開展,現(xiàn)有算力平臺資源難以為繼,項(xiàng)目間的資源爭搶已成常態(tài),嚴(yán)重影響了多個(gè)項(xiàng)目的研發(fā)進(jìn)度。為此,公司亟需進(jìn)行現(xiàn)有算力平臺升級,同時(shí)考慮到新建數(shù)據(jù)中心PUE要求,液冷方案成為客戶首選。
解決方案
面對客戶需求,提供定制化智算解決方案,包括CPU、GPU、存儲和網(wǎng)絡(luò)模塊,以滿足客戶的特定算力需求,避免標(biāo)準(zhǔn)化方案中的性能過剩和額外成本。通過創(chuàng)新的液冷改造及建設(shè)方案,不僅實(shí)現(xiàn)了低于1.1的全年平均PUE,還大幅擺脫了室內(nèi)環(huán)境溫度依賴,無需增設(shè)列間空調(diào)等設(shè)備,極大降低了系統(tǒng)整體能耗及建設(shè)投入成本。同時(shí),部署了PlatforMax平臺,統(tǒng)一管理和調(diào)度算力資源,通過圖形化界面實(shí)時(shí)監(jiān)控使用情況,支持分布式訓(xùn)練和細(xì)粒度資源管理。通過資源配額及多級權(quán)限設(shè)置,實(shí)際需求用戶可在線進(jìn)行資源的分鐘級申請及快速提取,有效避免內(nèi)部資源使用矛盾,使整體算力資源得到更合理、更高效使用。
客戶價(jià)值
通過液冷升級,不僅幫助客戶將全年平均PUE從原來的1.5降低到了1.1以下,更進(jìn)一步保障了關(guān)鍵算力芯片的穩(wěn)定性(最高溫度較風(fēng)冷下降約20%),規(guī)避了超溫下降頻、掉卡造成的算力衰減問題。通過PlatforMax下的資源統(tǒng)一化管理,解決了多項(xiàng)目間資源爭奪問題同時(shí),帶來了運(yùn)維成本的縮減,整體運(yùn)維效率提升達(dá)到90%以上。