大模型的出現催生了對大算力的需求,端到端開放解耦智算方案是產業良性發展的關鍵。中興通訊一直致力于成為端到端開放解耦智算方案提供商,加速AI技術的創新、研發、應用的商業化進程,努力與產業伙伴共同實現共贏的商業生態。近日,《通信產業報》全媒體采訪中興通訊副總裁陳新宇,探討了中興通訊如何應對挑戰,助力大模型發展與應用的實踐和經驗。
《通信產業報》:中興通訊在端到端開放解耦智算方案方面,做了哪些工作和取得怎樣的成果。
陳新宇:中興通訊秉承開放解耦的理念,發揮中興軟件、硬件和工程能力優勢,攜手合作伙伴構建多渠道供應鏈,通過硬件、軟件和能力平臺三個方面的創新,為用戶提供端到端的開放解耦智算方案。
中興通訊副總裁陳新宇表示,中興通訊認為開放的技術生態才能構建共贏的商業生態,端到端開放解耦智算方案是產業良性發展的關鍵。
在硬件方面,中興通訊采用基座靈活、適配多種CPU平臺和GPU模組,實現了換芯、換卡、不換座。支持3種CPU平臺,并與主流GPU完成了適配,為用戶提供了多樣化算力,用戶就可以根據成本、政策、供貨、功耗等不同的需求和情況來靈活選擇算力。
在軟件方面,通過異構資源管理、訓推作業調度和異構集合通信,實現了軟硬解耦。向下屏蔽了不同廠家芯片的差異,向上適配了主流AI框架,為模型運行提供了高性能、高可靠性、易遷移的環境。通過軟硬協同深度優化,最大化了資源效率。此外,不斷研究算力卸載和在網計算技術,以提升算力利用率。
在平臺方面,適配主流框架如PyTorch、TensorFlow,實現向后端平臺的自動編譯和優化,并提供從數據處理、模型開發、訓練、優化、評估、部署等端到端的工程工具集,支持全生命周期的保障和管理。同時,提供遷移工具,支持應用全域無感遷移,降低用戶遷移成本。
端到端開放解耦智算平臺。
“百花齊放春滿園”,中興通訊認為開放的技術生態才能構建共贏的商業生態,端到端開放解耦智算方案是產業良性發展的關鍵。通過軟硬解耦、訓推解耦、模型解耦,推動各類能力組件化和共享賦能,加速AI技術的創新、研發、應用的商業化進程,構建開放的技術生態;通過產業內的芯片廠商、硬件廠商、模型開發商、應用開發商等形成優勢互補,共同做大做強,共同實現智能計算生態的蓬勃發展。
《通信產業報》:大模型的出現催生了對大算力的需求,這給基礎設施帶來挑戰,中興通訊采取了哪些舉措來應對?
陳新宇:當前,集群規模無法滿足萬億以上超大模型訓練,突破國內大規模集群組網上限勢在必行。從GPT3千億模型到GPT4萬億模型,每年模型參數增長10倍,加上訓練token的增長,訓練總算力需要提升幾十倍。但算力芯片的性能每代只能增長2~4倍,單個集群需要更多的GPU卡數才能滿足萬億大模型訓練需求。
為了構筑更大規模的算力集群,中興通訊從機內和機間兩個維度,不斷研究優化GPU卡間高速互聯技術方案,滿足萬億以上大模型訓練需求。在機內,提出了開放的OLink互聯協議,突破機內TP8限制,支持16張到128張GPU超級計算節點的大TP算力;在機間,通過集大容量交換芯片能力的不斷演進,提供基于標準RoVEv2協議的交換機框盒互聯方案,滿足從千卡到萬卡超大規模算力的靈活組網需求。
《通信產業報》:隨著智算基建的完成和大模型訓練的成熟,行業應用落地成為最大的挑戰,中興通訊有什么解決方案?如何推動AI應用商業閉環?
陳新宇:企業在AI技術應用方面存在短板,同時私有數據的保護限制了模型訓練的有效性。此外,不同行業、不同企業的個性化需求也增加了應用落地的復雜性。
為解決這些問題,中興通訊提出引入AiCube訓推一體機的解決方案。在軟硬件方面,提供多品類高算力硬件底座和易用的訓推平臺,內置主流大模型和AI應用。在服務方面,提供定制化服務和代訓服務。
為推動行業應用落地,中興通訊與行業伙伴緊密合作,推出多種一體化解決方案。例如,針對工業質檢領域,提供機器視覺一體機;針對醫療行業,推出智能導診的智能問答一體機。用戶不需要專業技術積累,不需要大規模投資,不需要專業機房,不需要專業團隊,就可以構建自己的專屬大模型,用AI提升生產力。智、算、用一體化部署可大幅降低AI推廣門檻,加速行業市場規模化商用。