了解金山云最新資訊
2025-06-03 15:20:00
近日,金山云星流訓推平臺正式發(fā)布。平臺旨在為用戶提供一站式訓推任務管理平臺,保障訓推任務穩(wěn)定高效運行,提升算力使用效率,能為機器學習場景開發(fā)者與運維人員提供云原生AI算力與全流程管理能力支持。
平臺由基礎資源管理、算力管理工具、訓推任務管理、資產(chǎn)與權限管理等模塊構成,包括任務編排調(diào)度、任務可觀測性等6大核心特性,適用于模型開發(fā)與訓練、高并發(fā)模型在線服務等場景。
6大核心優(yōu)勢:
? 一站式全流程管理能力:提供從模型開發(fā)、訓練到推理的完整生命周期管理,能打通基礎資源調(diào)度、算力優(yōu)化、任務編排、權限管控全鏈路,通過降低多模塊協(xié)同復雜度,實現(xiàn)“開箱即用”的AI開發(fā)體驗;
? 異構資源高效調(diào)度:通過動態(tài)任務編排算法與算力管理工具,平臺能智能匹配異構算力資源與任務需求,保障GPU資源利用率,顯著降低算力閑置成本;
? 高性能存儲與網(wǎng)絡加速:采用集成分布式存儲系統(tǒng)與高速RDMA網(wǎng)絡架構,可實現(xiàn)訓練數(shù)據(jù)高速提取、模型參數(shù)高吞吐傳輸,支撐大規(guī)模分布式訓練任務并行效率提升;
? 任務全生命周期可觀測:任務級可觀測能力覆蓋開發(fā)、訓練、推理全流程,結合監(jiān)控、日志、事件信息及硬件維度監(jiān)控指標,快速定位異常點,縮短排障時間;
? 智能運維保障穩(wěn)定性:GPU故障自愈技術結合任務可觀測性設計,實時監(jiān)控硬件健康狀態(tài)與任務進程,自動觸發(fā)故障遷移與任務重調(diào)度,降低算力中斷風險,保障長周期訓練任務穩(wěn)定運行;
? 企業(yè)級安全管控體系:深度整合資產(chǎn)權限管理與訪問控制體系,提供細粒度角色權限控制、任務隔離及資產(chǎn)隔離功能,滿足多用戶權限控制場景的合規(guī)性要求。
2大應用場景 :
? 模型開發(fā)與訓練:通過KPFS高性能文件存儲、RDMA網(wǎng)絡拓撲調(diào)度和動態(tài)資源編排,解決海量數(shù)據(jù)數(shù)據(jù)加載、跨節(jié)點通信及異構算力調(diào)度難題,保障分布式訓練效率與連續(xù)性;
? 高并發(fā)模型在線服務:基于預置/自定義模型跨機部署、多副本彈性擴縮容與冗余設計,突破單機算力瓶頸,實現(xiàn)高并發(fā)低延遲響應與高可用服務保障。