方案背景
在過去20年時(shí)間里,HPC一直是增長(zhǎng)較快的IT市場(chǎng)之一,其增長(zhǎng)速度有時(shí)超過了在線游戲、平板的年增長(zhǎng)率,有專家預(yù)測(cè),HPC服務(wù)器市場(chǎng)將在2021年增長(zhǎng)到148億美元,整個(gè)HPC生態(tài)系統(tǒng)的市場(chǎng)會(huì)在2025年超過500億美元。
深度學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要學(xué)科。從人類發(fā)明計(jì)算機(jī)開始,就一直嘗試讓計(jì)算機(jī)具有學(xué)習(xí)的能力,特別是從20世紀(jì)80年代以來,深度學(xué)習(xí)在算法、理論和應(yīng)用等方面都獲得巨大成功。2006 年以來,“深度學(xué)習(xí)”開始成為一個(gè)新的科研熱點(diǎn),目前已經(jīng)深入到很多行業(yè),在很多應(yīng)用領(lǐng)域獲得成功,相關(guān)的研究工作也得到了大力推廣。
HPC應(yīng)用往往基于第一性原理的探索,在面對(duì)大量的數(shù)據(jù)庫數(shù)據(jù)和樣本數(shù)據(jù)時(shí),對(duì)于數(shù)據(jù)的處理顯得有些捉襟見肘,同時(shí)對(duì)于大量的仿真結(jié)果與大量計(jì)算結(jié)果數(shù)值的分析,也需要更多的時(shí)間完成,但AI是基于大量數(shù)據(jù)結(jié)合算法誕生的技術(shù),擅長(zhǎng)對(duì)于大量樣本數(shù)據(jù)的提取,同時(shí)對(duì)于大量仿真結(jié)果與計(jì)算結(jié)果的加速分析,用AI的方式處理HPC任務(wù)時(shí),不僅可以有效處理樣本數(shù)據(jù),對(duì)于得到的大量計(jì)算結(jié)果,可以利用AI的迭代細(xì)化的底層模型,完成大量結(jié)果的快速分析計(jì)算,實(shí)現(xiàn)降本增效。同時(shí)HPC的大量結(jié)果數(shù)據(jù)又可以為AI提供原始數(shù)據(jù),為模型的預(yù)測(cè)提供更好的支持,二者相輔相成。
深度學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要學(xué)科。從人類發(fā)明計(jì)算機(jī)開始,就一直嘗試讓計(jì)算機(jī)具有學(xué)習(xí)的能力,特別是從20世紀(jì)80年代以來,深度學(xué)習(xí)在算法、理論和應(yīng)用等方面都獲得巨大成功。2006 年以來,“深度學(xué)習(xí)”開始成為一個(gè)新的科研熱點(diǎn),目前已經(jīng)深入到很多行業(yè),在很多應(yīng)用領(lǐng)域獲得成功,相關(guān)的研究工作也得到了大力推廣。
HPC應(yīng)用往往基于第一性原理的探索,在面對(duì)大量的數(shù)據(jù)庫數(shù)據(jù)和樣本數(shù)據(jù)時(shí),對(duì)于數(shù)據(jù)的處理顯得有些捉襟見肘,同時(shí)對(duì)于大量的仿真結(jié)果與大量計(jì)算結(jié)果數(shù)值的分析,也需要更多的時(shí)間完成,但AI是基于大量數(shù)據(jù)結(jié)合算法誕生的技術(shù),擅長(zhǎng)對(duì)于大量樣本數(shù)據(jù)的提取,同時(shí)對(duì)于大量仿真結(jié)果與計(jì)算結(jié)果的加速分析,用AI的方式處理HPC任務(wù)時(shí),不僅可以有效處理樣本數(shù)據(jù),對(duì)于得到的大量計(jì)算結(jié)果,可以利用AI的迭代細(xì)化的底層模型,完成大量結(jié)果的快速分析計(jì)算,實(shí)現(xiàn)降本增效。同時(shí)HPC的大量結(jié)果數(shù)據(jù)又可以為AI提供原始數(shù)據(jù),為模型的預(yù)測(cè)提供更好的支持,二者相輔相成。
應(yīng)用領(lǐng)域
用戶價(jià)值

統(tǒng)一資源管理
管理整個(gè)系統(tǒng)的資源與用戶,實(shí)現(xiàn)計(jì)算資源的集中管理、統(tǒng)一分配,如 CPU、GPU、內(nèi)存、存儲(chǔ)等資源的集中管理、分配,用戶端的資源相互隔離,以作業(yè)方式動(dòng)態(tài)分配計(jì)算資源以及計(jì)算資源回收等。

智算融合平臺(tái)
智算融合一體機(jī)融合基礎(chǔ)硬件與PlatforMax智算融合平臺(tái),幫助用戶建立一個(gè)HPC+AI的融合平臺(tái),HPC與AI應(yīng)用靈活切換,無需遷移平臺(tái),一體機(jī)出廠前完成軟硬件一體化調(diào)試,實(shí)現(xiàn)開箱即用。
算力靈活配置
一體機(jī)計(jì)算能力可根據(jù)需求靈活調(diào)配,基于最新?至強(qiáng)?可擴(kuò)展處理器、Milan/Genoa平臺(tái)、及英偉達(dá)最新加速卡,結(jié)合用戶算力需求彈性調(diào)整,充分兼容多種異構(gòu)計(jì)算設(shè)備,實(shí)現(xiàn)算力自由。

降低業(yè)務(wù)門檻
一體機(jī)基于容器技術(shù),封裝大量HPC與AI底層環(huán)境,內(nèi)置主流機(jī)器學(xué)習(xí)及常見HPC應(yīng)用各個(gè)版本鏡像,一鍵下載使用,為用戶提供簡(jiǎn)明的操作界面,快速開始AI或HPC任務(wù),降低業(yè)務(wù)門檻,使業(yè)務(wù)快速上線。
產(chǎn)品特點(diǎn)

算力靈活擴(kuò)展
一體機(jī)計(jì)算能力可根據(jù)用戶需求靈活調(diào)配,可支持單機(jī)環(huán)境深度學(xué)習(xí)全流程設(shè)計(jì)或HPC單機(jī)計(jì)算,也可根據(jù)用戶算力需求擴(kuò)展為單柜或多柜的分布式AI或HPC任務(wù),適應(yīng)不用應(yīng)用場(chǎng)景及用戶對(duì)于計(jì)算的需求。

智能管理監(jiān)控
一體機(jī)可實(shí)時(shí)監(jiān)控管理集群資源使用情況和硬件狀態(tài),包括任務(wù)監(jiān)控、GPU使用看板、節(jié)點(diǎn)健康等,并提供用戶、集群、分區(qū)、節(jié)點(diǎn)維度的詳細(xì)使用報(bào)表,大幅提高資源使用效率,用戶通過遠(yuǎn)程控制臺(tái)監(jiān)控一體機(jī)的運(yùn)行和健康狀態(tài)。

AI+HPC作業(yè)管理
用戶可以在線提交配置調(diào)試任務(wù)、HPC、交互式開發(fā)任務(wù)、AI任務(wù),完成從配置、腳本、代碼驗(yàn)證到AI及HPC的運(yùn)行,同時(shí)展示AI和HPC作業(yè)的任務(wù)名稱、節(jié)點(diǎn)、分區(qū)、項(xiàng)目、狀態(tài)、以及對(duì)任務(wù)的操作。

高效數(shù)據(jù)存儲(chǔ)
采用軟件定義存儲(chǔ),通過分布式存儲(chǔ)系統(tǒng)構(gòu)建統(tǒng)一存儲(chǔ)資源池,支持塊、文件、對(duì)象等多種存儲(chǔ)協(xié)議,滿足業(yè)務(wù)平臺(tái)的存儲(chǔ)需求,可實(shí)現(xiàn)統(tǒng)一管理,實(shí)現(xiàn)簡(jiǎn)化運(yùn)維。分布式存儲(chǔ)支持IB高速網(wǎng)絡(luò)和RDMA,數(shù)據(jù)讀寫效率高。
任務(wù)作業(yè) — 智算融合平臺(tái)
數(shù)據(jù)存儲(chǔ) — 分布式存儲(chǔ)系統(tǒng)
推薦機(jī)型