北京超算吳迪:做好算力選型和場景適配,為用戶解決核心問題
點擊圖片可跳轉查看報告回放
報告關鍵詞
#算力選型 #大模型訓練 #在線推理 #科學計算 #性能預測 #資源池 #彈性調度 #運維服務 #高性能計算 #模型部署 #安全隔離
報告要點回顧
01 / 在計算需求快速增長的背景下,為什么選擇“算力的選型和場景的適配”作為報告主題?
吳迪:選擇這個主題是因為面對多種型號的訓練和推理資源時,計算前的選型至關重要。一個更高性能、更高性價比的資源能確保后期計算過程省心、高效且成本可控。同時,計算后的服務流程性能提升優化也非常重要。
02 / 算力作為底層核心生產力,在科研和大模型研發中扮演什么角色,存在哪些供需矛盾點?
吳迪:算力支撐著科學研究和大模型的研發,用戶最關心的是其性能和成本。當前主要矛盾點有兩個:一是隨著模型參數指數增長和迭代,算力需求規模不斷增大導致成本上升;二是多樣化應用場景與單一資源標準化服務之間的不匹配。
03 / 針對目前多種場景下的訓練和推理需求,如何解決用戶的核心問題?
吳迪:核心關鍵是幫助用戶在多種場景中做好更高性能、更高性價比的算力選型,并實現成本有效管控。為此,要梳理用戶的實際需求,如大模型訓練需大資源池、低延時穩定計算,線上推理則要求穩定性、彈性擴容和高效響應。
04 / 針對大模型訓練、在線推理和科學計算這三種典型場景,有哪些具體需求和解決方案?
吳迪:大模型訓練場景需要快速構建大資源池,保證及時、安全、穩定使用;在線推理場景則關注穩定性、高效回答問題以及資源彈性按需使用以避免利用率波動帶來的浪費;科學計算場景需解決并發任務高要求和靈活彈性使用的難題。針對以上問題,北京超算提供了一種從用戶需求到精準選型再到成本優化的服務框架。
05 / 如何實現精準的算力選型及后續的優化工作?
吳迪:在需求確認階段,根據客戶實際運行的場景、參數量大小等信息搭建配套環境,并明確業務目標和研究目標。接下來進行模型測試和應用運行特征分析,基于相關數據進行基礎選型。最終,通過對比不同型號資源的整體性能和成本,為用戶選擇出更高性價比的方案,并在使用過程中動態調配資源,確保按需使用、提高效率和降低成本。
06 / 在無法逐一測試所有產品型號的情況下,如何有效預測預訓練模型在新型號上的性能表現?
吳迪:通過構建性能預測模型和方法,例如以文生視頻為例,先在某一款GPU卡上跑出一組性能參數數據,然后基于這些數值在其他同類型資源上做相關預測,從而得出新型號上的性能表現。這樣不僅節省了大量測試成本,還能及時為用戶提供最新的資源方案。
07 / 在保證預測過程可靠性的過程中,主要依賴于什么方法工具?
吳迪:我們主要依托應用運行特征分析的方法工具來保證預測過程的可靠。該工具會基于不同的作業,通過多維數據(包括CPU、GPU、內存、顯存、網絡存儲等參數)進行智能分析,并提供科學決策所需的選型適配數據,這些數據包括峰值和均值數據,且是實時采集和分析的。
08 / 在線推理場景中,如何滿足客戶需求并提升效率?
吳迪:在線推理場景中,我們為一家文生視頻領先企業構建了一個千卡以上的推理在線資源池,用戶要求專線延遲小于20毫秒,單次推理小于20秒。通過測試發現,在模型不變的情況下,5090卡相比4090卡整體推理速度快了30%。在此過程中,我們進行了網絡調優、延遲穩定性保障、彈性調度、K8S自動擴容等工作,以及端到端的交付和運維支持,極大加快了用戶推理場景的落地實施。
09 / 在科研大模型場景中,你們如何滿足用戶的需求并保障資源高效利用?
吳迪:科研大模型場景中,我們服務于一個行業領先的研究所,為其搭建了一個支持多個研發團隊高效調度和使用的彈性調度科研計算資源池。除了資源保障,我們還加速了模型發布,保障了整體資源利用率。同時,在計算服務過程中,我們通過多種型號計算基礎設施、裸金屬高性能集群、云主機和容器云等模式,提供從底層硬件到上層應用的全鏈條技術保障。
10 / 在運維服務方面,你們如何實現可觀測性和高效穩定運行?
吳迪:我們構建了運維數據可視化大屏,實時展示用戶任務和節點性能情況,并在出現異常時及時推送報警信息。通過與飛書等在線服務工具對接,將運營和運維數據自動推送到用戶端。對于高級別問題,我們提供人工協同支持。此外,我們還加強了安全性建設,例如采用專屬云、專屬倉庫等措施,并全面監測性能,確保從基礎服務到模型部署、性能優化的全鏈條業務保障。
11 / 在生態建設方面,北京超算做了哪些工作來推動大模型在各行業的應用推廣?
吳迪:我們最新發布的AI智算云MaaS平臺集成了50余款主流開源和商用模型,方便用戶調用API實現文本推理、視覺理解、圖片視頻生成和向量級排序等工作。通過這個平臺,用戶可以直接調用API使用各種模型,旨在更好地推動大模型在面向各行業的廣泛應用,并與上下游產業合作,共同提升算力服務質量和大模型應用推廣成效。



