行業(yè)背景
隨著《中國教育現(xiàn)代化2035》等規(guī)劃的落地,加強(qiáng)教育信息化基礎(chǔ)設(shè)施建設(shè),響應(yīng)國家科技創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,提升教育設(shè)備設(shè)施能力是培養(yǎng)創(chuàng)新型人才的基礎(chǔ),有助于促進(jìn)教育與產(chǎn)業(yè)需求對接,培養(yǎng)符合產(chǎn)業(yè)需求的人才。
目前在人工智能與自然語言處理、計(jì)算機(jī)視覺、語音識(shí)別、自動(dòng)駕駛、工業(yè)制造、金融風(fēng)控等多領(lǐng)域的研究和教學(xué)中,例如針對大語言模型基于深度學(xué)習(xí)技術(shù),研究大規(guī)模模型計(jì)算,開展包括文本分類、命名實(shí)體識(shí)別、語義角色標(biāo)注等相關(guān)技術(shù)研究的需求都在日益增長。
高校有責(zé)任提供高質(zhì)量的教育環(huán)境,提升設(shè)備設(shè)施能力是提高教學(xué)質(zhì)量和學(xué)生實(shí)踐能力的關(guān)鍵。當(dāng)前的技術(shù)迅猛發(fā)展的背景同樣為教育設(shè)備設(shè)施的升級(jí)提供了成熟的技術(shù)條件和解決方案,國家和地方政府在教育信息化、產(chǎn)教融合等方面提供了政策支持和資金投入,為項(xiàng)目建設(shè)提供了良好的時(shí)機(jī)。
設(shè)備投入正常運(yùn)營后,除支持學(xué)校相關(guān)課題組的自身科研,為課題組承擔(dān)的國家級(jí)重大重點(diǎn)項(xiàng)目提供支撐保障,產(chǎn)出高水平科研成果外,同時(shí)也為橫向項(xiàng)目提供硬件基礎(chǔ)。因此需求專業(yè)的集群管理平臺(tái),納入資源池對校內(nèi)外正常開放,設(shè)立共享規(guī)則,利于社會(huì)資源的優(yōu)化配置。
目前在人工智能與自然語言處理、計(jì)算機(jī)視覺、語音識(shí)別、自動(dòng)駕駛、工業(yè)制造、金融風(fēng)控等多領(lǐng)域的研究和教學(xué)中,例如針對大語言模型基于深度學(xué)習(xí)技術(shù),研究大規(guī)模模型計(jì)算,開展包括文本分類、命名實(shí)體識(shí)別、語義角色標(biāo)注等相關(guān)技術(shù)研究的需求都在日益增長。
高校有責(zé)任提供高質(zhì)量的教育環(huán)境,提升設(shè)備設(shè)施能力是提高教學(xué)質(zhì)量和學(xué)生實(shí)踐能力的關(guān)鍵。當(dāng)前的技術(shù)迅猛發(fā)展的背景同樣為教育設(shè)備設(shè)施的升級(jí)提供了成熟的技術(shù)條件和解決方案,國家和地方政府在教育信息化、產(chǎn)教融合等方面提供了政策支持和資金投入,為項(xiàng)目建設(shè)提供了良好的時(shí)機(jī)。
設(shè)備投入正常運(yùn)營后,除支持學(xué)校相關(guān)課題組的自身科研,為課題組承擔(dān)的國家級(jí)重大重點(diǎn)項(xiàng)目提供支撐保障,產(chǎn)出高水平科研成果外,同時(shí)也為橫向項(xiàng)目提供硬件基礎(chǔ)。因此需求專業(yè)的集群管理平臺(tái),納入資源池對校內(nèi)外正常開放,設(shè)立共享規(guī)則,利于社會(huì)資源的優(yōu)化配置。
算力平臺(tái)需求
系統(tǒng)架構(gòu)從底層到上層依次是:基礎(chǔ)設(shè)施、硬件資源、基礎(chǔ)軟件以及應(yīng)用服務(wù)。整個(gè)項(xiàng)目可提供基礎(chǔ)設(shè)施到基礎(chǔ)軟件這一整個(gè)軟硬件平臺(tái),以及軟硬件平臺(tái)和上層應(yīng)用的兼容性,上層應(yīng)用涉及各個(gè)領(lǐng)域。
基礎(chǔ)設(shè)施:提供高性能計(jì)算運(yùn)行的基礎(chǔ)設(shè)施環(huán)境,包括機(jī)房建設(shè)、空調(diào)系統(tǒng)等。
硬件平臺(tái):提供標(biāo)準(zhǔn)機(jī)架服務(wù)器作為計(jì)算節(jié)點(diǎn),囊括CPU節(jié)點(diǎn)、GPU節(jié)點(diǎn)及登錄管理節(jié)點(diǎn)等;提供高性能計(jì)算所需要的計(jì)算網(wǎng)絡(luò)、業(yè)務(wù)管理網(wǎng)絡(luò)、設(shè)備監(jiān)控網(wǎng)絡(luò);提供分布式存儲(chǔ)系統(tǒng),支持通過橫向擴(kuò)展硬件節(jié)點(diǎn)線性增加整系統(tǒng)容量與性能,滿足存儲(chǔ)高并發(fā)要求。
基礎(chǔ)軟件:提供集群管理軟件, 實(shí)現(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控,提供人工智能模型開發(fā)、模型訓(xùn)練到部署的完整功能,同時(shí)適用于生命科學(xué)、氣象預(yù)報(bào)、量子力學(xué)、油氣勘探等科學(xué)計(jì)算領(lǐng)域,廣泛應(yīng)用于教育、科研、金融、醫(yī)療、能源等適用人工智能或科學(xué)計(jì)算以及智算融合的領(lǐng)域; 集成多種主流調(diào)度器,兼容多種操作系統(tǒng)。
基礎(chǔ)設(shè)施:提供高性能計(jì)算運(yùn)行的基礎(chǔ)設(shè)施環(huán)境,包括機(jī)房建設(shè)、空調(diào)系統(tǒng)等。
硬件平臺(tái):提供標(biāo)準(zhǔn)機(jī)架服務(wù)器作為計(jì)算節(jié)點(diǎn),囊括CPU節(jié)點(diǎn)、GPU節(jié)點(diǎn)及登錄管理節(jié)點(diǎn)等;提供高性能計(jì)算所需要的計(jì)算網(wǎng)絡(luò)、業(yè)務(wù)管理網(wǎng)絡(luò)、設(shè)備監(jiān)控網(wǎng)絡(luò);提供分布式存儲(chǔ)系統(tǒng),支持通過橫向擴(kuò)展硬件節(jié)點(diǎn)線性增加整系統(tǒng)容量與性能,滿足存儲(chǔ)高并發(fā)要求。
基礎(chǔ)軟件:提供集群管理軟件, 實(shí)現(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控,提供人工智能模型開發(fā)、模型訓(xùn)練到部署的完整功能,同時(shí)適用于生命科學(xué)、氣象預(yù)報(bào)、量子力學(xué)、油氣勘探等科學(xué)計(jì)算領(lǐng)域,廣泛應(yīng)用于教育、科研、金融、醫(yī)療、能源等適用人工智能或科學(xué)計(jì)算以及智算融合的領(lǐng)域; 集成多種主流調(diào)度器,兼容多種操作系統(tǒng)。

并行計(jì)算和存儲(chǔ)解決方案
針對分布式計(jì)算的計(jì)算特性,高性能 GPU 服務(wù)器可以作為分布式計(jì)算集群中的高性能計(jì)算節(jié)點(diǎn)。在大規(guī)模數(shù)據(jù)處理任務(wù)中,如大數(shù)據(jù)分析中的矩陣運(yùn)算或者圖計(jì)算,GPU 服務(wù)器能夠提供比普通 CPU 服務(wù)器高得多的計(jì)算性能。
分布式文件存儲(chǔ)系統(tǒng)具備提供更高的容量、性能和可靠性的能力,通過提供全閃集群和海量數(shù)據(jù)集群的方案,聚合讀寫性能隨規(guī)模擴(kuò)大線性增長,提升集群并發(fā)能力支持人工智能業(yè)務(wù)需求,同時(shí)支持海量數(shù)據(jù)存儲(chǔ),支持在線擴(kuò)容, 多協(xié)議融合互通訪問。
分布式文件存儲(chǔ)系統(tǒng)具備提供更高的容量、性能和可靠性的能力,通過提供全閃集群和海量數(shù)據(jù)集群的方案,聚合讀寫性能隨規(guī)模擴(kuò)大線性增長,提升集群并發(fā)能力支持人工智能業(yè)務(wù)需求,同時(shí)支持海量數(shù)據(jù)存儲(chǔ),支持在線擴(kuò)容, 多協(xié)議融合互通訪問。

分布式存儲(chǔ)系統(tǒng)構(gòu)建
使用Platformax智算融合平臺(tái) 簡化運(yùn)營和運(yùn)維,依據(jù)用戶需求提供統(tǒng)一平臺(tái)(統(tǒng)一入口或統(tǒng)一調(diào)度集成),提供統(tǒng)一的用戶管理、資源管理、計(jì)費(fèi)、報(bào)表管理等功能,支持對計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源統(tǒng)一監(jiān)控、日志管理。

高性能計(jì)算節(jié)點(diǎn)配置
配置數(shù)十臺(tái)CPU/GPU計(jì)算節(jié)點(diǎn),囊括Intel Xeon平臺(tái)、AMD EPYC平臺(tái),GPU資源以NVIDIA Geforce/Tesla 系列顯卡為主,主要應(yīng)用與深度學(xué)習(xí)領(lǐng)域的單精度計(jì)算。

平臺(tái)簡化運(yùn)營運(yùn)維
組建MatrixStore分布式存儲(chǔ),以多臺(tái)全閃服務(wù)器與多臺(tái)存儲(chǔ)服務(wù)器共同組建算力池,根據(jù)業(yè)務(wù)需求對不同存儲(chǔ)介質(zhì)進(jìn)行分組提供服務(wù),配置靈活的分級(jí)存儲(chǔ)配置。
推薦機(jī)型