SkyForm算力調度系統
產品概述
SkyForm算(suan)(suan)力調(diao)度(du)(du)系統是由北京天云(yun)融創軟(ruan)件技(ji)術(shu)有(you)限公司自主研(yan)發的專為(wei)高性能計算(suan)(suan)、人工智(zhi)能以(yi)(yi)及智(zhi)算(suan)(suan)中心應用(yong)設計的算(suan)(suan)力調(diao)度(du)(du)系統,具有(you)獨立(li)知識產權,安全可控,核(he)心技(ji)術(shu)不依賴于國外開源(yuan)社區。本(ben)系統適用(yong)于管理強大(da)算(suan)(suan)力的超(智(zhi))算(suan)(suan)中心、以(yi)(yi)及工業仿(fang)真(zhen)、科研(yan)領域、人工智(zhi)能和數據分析等(deng)領域的資源(yuan)管理和任務調(diao)度(du)(du)。
產品定位(wei)
SkyForm算(suan)(suan)力調(diao)(diao)度(du)(du)系統(tong)是(shi)北京天云融(rong)創軟件自(zi)主(zhu)研發的高性(xing)能計算(suan)(suan)(HPC)和高通量計算(suan)(suan)(HTC)任務(wu)調(diao)(diao)度(du)(du)系統(tong),有支持數(shu)萬(wan)個(ge)節點的集群、每小(xiao)時百(bai)萬(wan)任務(wu)通量調(diao)(diao)度(du)(du)的能力。
產(chan)品功能(neng)
廣泛的集成(cheng)和(he)兼容生態
• 融合HPC、AI、大數據(ju)等多種并發批(pi)處(chu)理(li)應(ying)(ying)用(yong)的(de)支(zhi)持,全面兼容應(ying)(ying)用(yong)廠(chang)商已有的(de)應(ying)(ying)用(yong)與資(zi)源管(guan)理(li)的(de)深度(du)集(ji)成,快(kuai)速部署和上(shang)線,包括(kuo):如CAE應(ying)(ying)用(yong)ANSYS,FLUENT,ABAQUS,NASTRAN,LS-DYNA,-STAR-CCM+,OptiStruct,SIMPACK等,EDA應(ying)(ying)用(yong)Synopsys、Cadence、Mentor Graphics以及華(hua)大九(jiu)天等,以及機器學(xue)習/深度(du)學(xue)習框(kuang)架TensorFlow、MXNet、PyTorch、Intel Caffe、Spark、RapidMiner等;
• 深(shen)度集成HPC應用常用的MPI,無需配(pei)置免密SSH,遠程(cheng)管(guan)理和控制(zhi)MPI任(ren)務分發,自動清(qing)理任(ren)務進程(cheng)殘(can)留;
• 支持應用在容器中調(diao)度;
• 支持(chi)各種(zhong)操作系統、云環境、國產(chan)CPU、GPU軟硬件平臺;
• 支持2D/3D遠程高保真、低延(yan)遲可視化技術;
• 支(zhi)持國際通用(yong)調(diao)度(du)器的(de)常用(yong)命令行:SLURM、PBS、LSF
最大化應用(yong)許可利用(yong)率
• 基于應用程序許(xu)可(ke)證的(de)調(diao)度
• 基(ji)于策略分配(pei)許可功能
• 最大(da)化許可利用率(lv)和(he)吞吐量
• 確保及時完成重要工作負載
增(zeng)強的調度功能
• 確保(bao)服(fu)務(wu)質量的搶(qiang)占調度
• 多級(ji)別(bie)的(de)公平分享調度
• 基(ji)于許可或資源的搶(qiang)占(zhan)
• 作業陣列
• 隊列(lie)分派和運行窗口
• 獨占(zhan)調度、交互(hu)作業支(zhi)持
• 用(yong)戶、隊列和主機的作業限制
• 多步驟工作流的(de)作業依賴
• 支(zhi)持根據實際資源使用閾值的調度
• 支持大作業(ye)資(zi)源預留、小作業(ye)回(hui)填等(deng)
• 支(zhi)持(chi)Linux和(he)Windows混合集群(qun)的統一(yi)資源調(diao)度和(he)配置管(guan)理;
• 簡化深度(du)學習分(fen)布式任務(wu)資源(yuan)分(fen)配和部(bu)署
管(guan)理功能(neng)
• 易于使用的web界面(mian)
• 用(yong)戶可以在不改變(bian)使用(yong)習(xi)慣的前(qian)(qian)提下完成前(qian)(qian)后處(chu)理和求解,利用(yong)HPC集群加速仿(fang)真進(jin)程
• 支持(chi)項目、用戶(hu)、作業、主機等多維(wei)度多指(zhi)標監控和分析
• 支(zhi)持(chi)作業使用的軟(ruan)硬件資源進行計量計費(fei)
• 靈活(huo)的報表(biao)子系統(tong)
• 作業組支持(按組管理作業)
• 增強的(de)NUMA環境支持
• 支持(chi)多集(ji)群管理
• 支(zhi)持多種底層調度技術
卓越的可伸(shen)縮性(xing)和可靠性(xing)
• 支持數(shu)百萬(wan)個作業,數(shu)千(qian)臺(tai)主機
• 動態主(zhu)機選擇(ze),多路故障轉(zhuan)移
• 低延遲、高(gao)吞吐量(liang)調度
• 并行事件處理帶(dai)來更(geng)快(kuai)啟動速(su)度
• 針對可(ke)伸縮性的附加調整參(can)數
• 增強的inter-daemon通信
• 可(ke)插拔(ba)的身份驗證
• 主機宕機時的作業重啟
靈活部署
• 避(bi)免(mian)限制性(xing)許可證(zheng)協議
• 支持在本(ben)地和在云中運行
• 保持靈活性(xing),降低許可成本(ben)
高品質的(de)服務和支持
• 擁有數(shu)十年相(xiang)關經驗的支(zhi)持團隊
• 標(biao)準和高(gao)級(ji)支持選(xuan)項(xiang)
• 安裝(zhuang)、配置和(he)調優的援助
• 可選的(de)現場實(shi)施服務
產品價值
1、加速產品和科技成果(guo)研發:極(ji)致發揮(hui)高(gao)性能算力,融合和共享(xiang)多種(zhong)資源,提高(gao)工業設計、仿真,科學計算、人工智能、和數據分析的(de)能力。
應用場景
高性能計算系統的應(ying)用領域(yu)非常廣泛,包括CAE仿真(結構分(fen)析,流體分(fen)析,電磁場分(fen)析)、EDA、動漫渲染(圖(tu)像處(chu)理、三維渲染)、高校課題研究、電力、物理化(hua)學、石油勘探、生命科學、氣(qi)象環境(海(hai)洋預報(bao))、航空航天設(she)計以及人工智能等等。
場景一:工業制(zhi)造設計仿真系統解決方案(an)
隨著新(xin)一代信(xin)息技術(如(ru)云計算、物聯網(wang)、大數據等)與制(zhi)造(zao)業(ye)的融(rong)合(he)與落地應用,世界(jie)各國紛紛出臺了各自的先(xian)進制(zhi)造(zao)發展(zhan)戰(zhan)略,如(ru)美國工(gong)業(ye)互聯和德國工(gong)業(ye)4.0,與此(ci)同時,在“制造強國”和“網絡強國”大戰略背景下,我國也先后出臺了“中國制造2025”和“互聯網+”等制造(zao)業國家發展實施戰略,加快(kuai)建(jian)設制造(zao)強(qiang)國,加快(kuai)發展先(xian)進制造(zao)業,其核心(xin)是借(jie)力新一代信息技術(如數字孿生(sheng)體(ti)Digital Twin),充分利(li)用物理模型、傳感器更新(xin)、運行歷(li)史等數據,集成多學科、多物理量、多尺度、多概率的仿(fang)真過程,實現制(zhi)造的理世界與信息世界的交互與共融,進而(er)促進制(zhi)造業先進化水平的整體(ti)提升。
數(shu)字孿(luan)生面向(xiang)產品全生命周期(qi)過程,發揮連接物理世界和信息世界的(de)橋梁和紐(niu)帶(dai)作用,在(zai)虛(xu)擬(ni)空間(jian)中完(wan)成(cheng)映射(she),從而反映相對應的(de)實體裝備的(de)全生命周期(qi)過程。通過工業(ye)輔(fu)助設計CAD、工業仿真CAE、虛擬(ni)轉配和制(zhi)造DMU/CAM的(de)輔助工具,由漫長傳(chuan)統工業設計制造的(de)物(wu)理(li)過程(cheng)向數字(zi)化(hua)的(de)虛(xu)擬過程(cheng)邁進(jin)。因(yin)此,在(zai)此建設過程(cheng)中,亟需高(gao)效、靈活、高(gao)性(xing)能(neng)的(de)云(yun)服務(wu)能(neng)力的(de)支撐,來(lai)加速(su)產品發布周期(qi)、提升產品交付質量,優化(hua)全生命周期(qi)成本。
業界(jie)解(jie)決(jue)方(fang)案的(de)現(xian)狀
目前工業制造設計仿真應用支撐系統形態(tai)各異(yi),主要面臨如下問題和(he)挑戰:
• 仿真系統(tong)復雜度(du)高,資源和應用的管理、運維的難(nan)度(du)大、復雜性高;
• 常規(gui)HPC方案(an)所(suo)能解(jie)決的問題有限(xian),提供(gong)軟件運行環境,但(dan)操作性相對傳(chuan)統(tong)落后,與(yu)用戶本地環境相比使用體驗(yan)差;
• 普(pu)遍(bian)的(de)仿真云基于虛擬桌面(mian)方案,因(yin)此缺乏高性能(neng)、分布式并(bing)行計算能(neng)力的(de)支持;
• 公有云服務(wu)提供(gong)商(shang)只提供(gong)硬件資源環境,用(yong)(yong)戶仍需自行解決應用(yong)(yong)部署(shu)、與(yu)本地資源連接(jie)等問題(ti)。
解(jie)決(jue)方案
天(tian)云工業(ye)制(zhi)造(zao)(zao)云平臺以天(tian)云融創軟(ruan)件的兩大核心產(chan)品SkyForm多(duo)云管理(li)平臺和SkyForm算(suan)力(li)(li)調度系統為依托,提供(gong)(gong)從底層資(zi)源(yuan)管理(li)到上層工業(ye)應(ying)用管控的一(yi)體化的工業(ye)制(zhi)造(zao)(zao)云解決方案。在該云平臺上提供(gong)(gong)工業(ye)設計CAD、分析和模擬CAE、數控加工CAM以及產(chan)品數據管理(li)PDM端到端的工業(ye)制(zhi)造(zao)(zao)軟(ruan)件SaaS服務(wu)能力(li)(li),用戶可以像本地(di)一(yi)樣便捷、靈活地(di)訪問和使用工業(ye)制(zhi)造(zao)(zao)應(ying)用軟(ruan)件,同時提供(gong)(gong)按需(xu)供(gong)(gong)給的彈性計算(suan)能力(li)(li)。
SkyForm多(duo)云管理平臺(tai)實現對底層(ceng)(ceng)異構計算資源進行統(tong)一管理,包括私有(you)云、公有(you)云、裸(luo)金屬(shu)服(fu)務器,為上層(ceng)(ceng)應用提供支撐。
SkyForm算力調度系統基于云資(zi)(zi)(zi)源以及高(gao)性能(neng)計(ji)算物(wu)理(li)資(zi)(zi)(zi)源池(chi),提(ti)供豐(feng)富(fu)的(de)工業(ye)制造應(ying)(ying)用(yong)(yong)的(de)集成、快速的(de)應(ying)(ying)用(yong)(yong)云服務化、業(ye)務協同管(guan)理(li),規(gui)范(fan)的(de)資(zi)(zi)(zi)源、數據和應(ying)(ying)用(yong)(yong)許可(ke)授權(quan)治理(li),高(gao)效的(de)資(zi)(zi)(zi)源管(guan)控和調(diao)度。
場(chang)景(jing)二:一流半導體設計(ji)公司高性能計(ji)算(suan)解決方案(an)
天云(yun)融(rong)創軟(ruan)件已與多(duo)家半導(dao)體行業公(gong)司合(he)作,協助在(zai)40,000個內核(he)上(shang)部署SkyForm算力(li)調度系統 for IC設計(ji),為客戶帶(dai)來(lai)戰略靈活性,協助遷移服務(wu)和(he)技(ji)術支持服務(wu)。
根據業(ye)務運算(suan)的復(fu)雜性,平臺面臨以(yi)下挑戰:
1、計算(suan)節點數量(liang)多,部(bu)署復雜(za),安裝(zhuang)過程容易出(chu)錯(cuo)。
2、計算節點(dian)管(guan)理調度不(bu)靈活,造(zao)成任務排隊,資源浪費。
3、各部門作業任務計算(suan)量大(da),需良(liang)好(hao)的調度軟(ruan)件滿足等級(ji)較高的作業任務優先使(shi)用計算(suan)資源(yuan)。
4、業務(wu)計算(suan)關聯性強,滿足資源(yuan)共享能(neng)力。
解決方案
• 快速部(bu)署(shu),大量(liang)計算節點(dian)幾(ji)分鐘(zhong)部(bu)署(shu)完(wan)成。
• 計算(suan)能力,容納數(shu)(shu)千個計算(suan)節(jie)點,數(shu)(shu)十(shi)萬個內核和數(shu)(shu)百萬個作業并行計算(suan),SkyForm算(suan)力調度(du)系統(tong)可以調度(du)和動態分配任務。
• 設(she)置策(ce)略(lve)優先級(ji),多級(ji)別(bie)分享調度,設(she)置不同等級(ji)的作業優先級(ji)別(bie)。
• 資(zi)源利用率(lv)高,在100,000核的集群上負載1,000,000個作業,達到99%的資(zi)源利用率(lv)。
場景三:動漫(man)渲染領域高性能(neng)計(ji)算解決(jue)方案
渲(xuan)(xuan)染是動(dong)(dong)漫、影(ying)視制(zhi)作的(de)(de)核心環節之一,是實現創意和前期(qi)設計構想的(de)(de)關鍵環節,直接(jie)決定作品的(de)(de)視覺效(xiao)果(guo),高水(shui)平的(de)(de)渲(xuan)(xuan)染可(ke)以細致(zhi)地(di)顯示出材質紋理和光(guang)景效(xiao)果(guo),使(shi)形象更加生動(dong)(dong)逼真。目前,渲(xuan)(xuan)染已經成為全(quan)球重(zhong)要的(de)(de)高性能計算應用(yong)領域,且近(jin)些年我國(guo)(guo)動(dong)(dong)漫、影(ying)視產業(ye)發展迅猛,全(quan)國(guo)(guo)各(ge)地(di)興建動(dong)(dong)漫影(ying)視基地(di)或創意文化(hua)產業(ye)園區,為渲(xuan)(xuan)染應用(yong)的(de)(de)普(pu)及與(yu)推廣提供了極(ji)好的(de)(de)契機。
隨著電影、動畫制作的不斷精細化(hua)與高清化(hua),渲(xuan)染消耗的時(shi)長以及(ji)產(chan)生的原始數據量都在飛速增長,這也對渲(xuan)染農場的各方面性(xing)能提出嚴苛的要(yao)求。
目前(qian)渲染主要面臨以下幾方(fang)面挑戰:
• 單(dan)機渲染視圖和動(dong)畫非(fei)常耗時,占很大的制作時間比例;
• 計算密集型(xing)特征要求(qiu)系統運算能力高(gao);
• 海量存(cun)儲需求(qiu),并發讀寫壓力大,容易出現I/O瓶頸;
• 動(dong)漫渲染管理繁(fan)瑣,賬號(hao)控制和用戶記賬統計復雜。
解決方案
HPC集群資源(yuan)管理方(fang)面,將分散在不同節點上的(de)物理資源(yuan)聚(ju)合起來(lai)(lai),根據(ju)內存、閑置CPU容量、磁盤空間、臨時空間、軟(ruan)(ruan)件可用性,以(yi)及(ji)用戶定義的(de)資源(yuan)限制(zhi)來(lai)(lai)調(diao)度并分配工作(zuo)負載,支持數(shu)百萬個作(zuo)業(ye),數(shu)千臺主機超(chao)大(da)規模的(de)運算能力。
卓越的可伸(shen)縮(suo)性和可靠性,作業(ye)(ye)調度動態(tai)主(zhu)機選擇(ze),多(duo)路故(gu)障轉移,主(zhu)機宕機時(shi)的作業(ye)(ye)重啟。
Maya, 3Dstudio MAX, XSI專業的三維(wei)建(jian)模軟件分(fen)(fen)布在多臺計(ji)算資源節點(dian)上,實現(xian)更(geng)高(gao)效的渲染;并行存儲系統(tong)提供海量、高(gao)帶寬的數據訪問;SkyForm任務(wu)調度系統(tong)對(dui)硬件平(ping)臺提供全面、完善的作業調度分(fen)(fen)配、運維(wei)管(guan)理與監(jian)控(kong)管(guan)理功能(neng)。
SkyForm任(ren)務(wu)調度系統可對用(yong)戶插拔進行(xing)身(shen)份驗證。
場(chang)景四(si):高校教學模擬研究高性能計(ji)算(suan)解決方案
各大院(yuan)校都希望通過HPC強大的計算能(neng)力計算或模擬實(shi)驗運算出來的結(jie)果,來輔(fu)助完成(cheng)學(xue)(xue)術和探索方面的研(yan)究(jiu)和證(zheng)實(shi),這(zhe)些學(xue)(xue)術和探索方面的研(yan)究(jiu)課題包括生物計算,基因研(yan)究(jiu),航空航天,分子動(dong)力學(xue)(xue),材料化學(xue)(xue),計算化學(xue)(xue),物理化學(xue)(xue),結(jie)構力學(xue)(xue),流體(ti)力學(xue)(xue),有限(xian)元(yuan)領域(yu),氣象(xiang)領域(yu),石油(you)勘探以及(ji)人工智能(neng)等領域(yu)。這(zhe)些課題的研(yan)究(jiu)成(cheng)果都是高校研(yan)究(jiu)能(neng)力的重要體(ti)現。
目(mu)前高校的高性能計算主要面(mian)臨以下幾方面(mian)挑戰:
1、院(yuan)校各專業學生較多(duo),需要跨多(duo)個集群(qun)、調度管理。
2、需滿足不同專業(ye)學術的(de)(de)模擬需求,滿足多租戶(hu)的(de)(de)實(shi)驗(yan)場景(jing),實(shi)現多租戶(hu)之間的(de)(de)安全隔(ge)離,每個用戶(hu)使用時的(de)(de)體驗(yan)是自己獨(du)享(xiang)一(yi)個集群。
3、需滿足(zu)資(zi)源(yuan)靈活分(fen)配要(yao)求來(lai)滿足(zu)不同課(ke)題研究環(huan)境。
4、需滿足系統批量自動發放并(bing)部(bu)署教學環境(jing)。
解決方案
• 海(hai)量計(ji)算(suan)能(neng)力:基(ji)于SkyForm算(suan)力調度系統的海(hai)量規模(mo)計(ji)算(suan),模(mo)擬實驗(yan)(yan)平臺能(neng)夠快(kuai)速高效獲取(qu)計(ji)算(suan)資源,大(da)大(da)縮短(duan)排隊和實驗(yan)(yan)模(mo)擬時間。
• 多租(zu)戶:學術和探(tan)索方(fang)向課(ke)(ke)題研究都不同,每(mei)個課(ke)(ke)題都是一個私有的運算環境(jing),采用(yong)多租(zu)戶的實驗場景,實現(xian)多租(zu)戶之間的安全(quan)隔(ge)離。
• 集(ji)群計(ji)算能(neng)力:強大的(de)(de)集(ji)群并行計(ji)算能(neng)力,100,000核的(de)(de)集(ji)群上(shang)負載1,000,000個作業,達(da)到99%的(de)(de)資源利(li)用率。
• 降低(di)TCO成本(ben)(ben):開源(yuan)的技術優勢,降低(di)采購成本(ben)(ben)。
— 推薦閱讀 —
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18
在線咨詢(xun) MESSAGE