无限日本在线观看完整版中文_欧美男男在线观看_两个人看的www片免费中文_国产精品不卡视频

語種
中文簡體 中文繁體 English
營業廳
網上營業廳 掌上營業廳
返回頂部
向新向智 “息壤”生出澎湃算力
張佳麗 徐書馨 2024-10-21 人民郵電報
分享:
   

作為云服務國家隊,中國電信天翼云始終堅持科技創新,在技術方面不斷取得突破,推出多項研發成果。作為其中的重要代表,“息壤”入選“2022年度央企十大超級工程”,通過將復雜的算力資源智能、有序地調度到目的地,不斷刷新算力傳輸的“中國速度”。

《山海經注》云:“息壤者,言土自長息無限,故可以塞洪水也?!边M入人工智能時代,“息壤”如同它的名字一般,持續向智能“生長”,進一步升級為一體化智算服務平臺,為大模型的快速發展和落地持續提供多樣化的算力資源和一體化的智算服務。

統籌調度 全網算力“隨愿可得”

數字時代,以算力為核心的數字信息基礎設施成為國家戰略性布局的關鍵組成部分。但是當前,我國算力分布呈現總量大但分布不均衡的特征,總體需求旺盛與局部算力閑置并存,供需匹配不暢。因此,在全國范圍內實現高效的算力統籌和調度,滿足千行百業對算力的不同需求,提升全局算力的利用率,成為提升算力“中國速度”的一項重要工程。

為優化數據中心建設布局,統籌調度、高效利用算力資源,2022年2月,國家發展改革委、中央網信辦等四部門聯合印發通知,同意在京津冀、長三角、粵港澳大灣區、成渝,以及內蒙古、貴州、甘肅、寧夏等8地啟動建設國家算力樞紐節點,并規劃了10個國家數據中心集群,“東數西算”工程正式全面啟動。作為算力基礎設施建設的排頭兵,中國電信積極貫徹落實“東數西算”工程和加快構建全國一體化算力網的要求,在上海青浦、浙江嘉善、江蘇吳江、廣東韶關、甘肅慶陽等國家算力樞紐節點新建了大型數據中心,在算力建設上落實“東數西算”“東數西備”“東數西存”,助力提升資源利用率和算力算效。同時充分發揮電信運營商的網絡資源稟賦,推進以DC為中心組網,提升國家樞紐節點網絡互聯能力,構建四區六軸八樞紐多通道的低時延光纜網底座,持續深化區域一體化組網,同步加快新型云化城域網建設,全面滿足一體化算力網1ms/5ms/20ms時延要求,全方位打造支撐“東數西算”戰略落地所需的大帶寬、低時延、智能敏捷、安全可靠的網絡基礎設施。

作為國家云,天翼云在優化算力資源配置、提升資源使用效率方面做出一系列努力,自主研發的“息壤”平臺應運而生,為算力的高效統籌和調度提供了解決方案。

通俗來講,“息壤”好比是一個算力傳輸的樞紐,能夠在全國范圍內實現每分鐘數萬次、每天上千萬次的算力統籌調度,滿足千行百業對算力的需求,讓算力像水和電一樣即取即用、“隨愿可得”。“息壤”通過把多方算力匯集到一個平臺,實現一體化供給,具備對多服務商異構算力的跨區域調度能力,支持對通用計算、智算、超算和網絡進行一體化調度,降低算力使用成本。

基于“息壤”強大的算力調度能力,智慧教育資源隨時共享,讓偏遠地區的孩子也能像大城市的孩子一樣享受優質的教學資源;在汽車工業領域,300次的仿真碰撞試驗在一分鐘內便能成功模擬完成……從市民生活到工業生產,從城市中心到偏遠地區,“隨愿可得”的算力賦能千行百業,走入千家萬戶,重塑著每個人的生活。

云智一體 大模型訓推“一步到位”

科技不斷向前發展,我們迎來了人工智能時代。當前,人工智能行業進入以大模型為代表的快速發展階段,國產多模態大模型爆發式更新,AI應用有望迎來更多功能和形態方面的突破升級,未來發展空間廣闊。

但大模型的研發與推廣仍然面臨一定的壓力和挑戰。一方面,大模型的訓練和應用需要大量的高質量數據,當前我國數據資源有限且分散,導致模型訓練效果并不理想;另一方面,模型的參數量和計算復雜度持續增加,對算力的需求以幾何級數增長。

作為云服務國家隊、數字中國建設主力軍,天翼云順勢而為,積極響應國家政策號召,布局智算基礎設施建設,為人工智能產業發展筑牢算力基石。為滿足大模型的市場需求和變化,天翼云能力全面升級,構建“息壤”一體化智算服務體系和能力,提供極致的算力調度、高效的計算加速、普惠的一站式智算服務。

在算網調度能力方面,“息壤”在三方面取得顯著技術突破。通過算力插件和算力網關,實現了算力的統一、高效和云化接入;通過算數協同和多級算力互聯調度,實現了算數網的一體化調度,數隨算走、算隨數動,調度區域更廣,算力更泛在;借助大模型認知能力和業務調度,實現算力選擇和應用部署簡單化,故障自動恢復與負載均衡,使算力簡便易用。

基于技術突破和產品化應用,“息壤”可服務于三大算力場景。一是天翼云自營公共算力服務平臺,目前已接入超40家算力伙伴,實現三方各類算力可調度22EFlops,顯著擴大了算力規模和品類,滿足公有云客戶的多元算力需求。二是幫助客戶構建行業算力互聯網,例如高校算力聯盟等,實現行業內算力利用率的有效提升。三是助力建設城市算力互聯網,實現區域內多方算力的一體化統籌調度,助力地方經濟和產業發展。

在異構計算能力方面,“息壤”具備高效的異構計算能力,能夠破解大模型訓練推理中面臨的大算力、高性能、高穩定需求等挑戰。在大算力需求方面,天翼云建立PB級并行文件存儲,并組建低延時超大規模RDMA網絡,通過計算、內存和通信的多維優化,提升綜合算效。在性能方面,自研AI框架、算子加速庫、集合通信庫、網絡拓撲感知、存儲加速等關鍵技術,將國產算力的綜合算效提升到行業領先水平。在穩定性方面,通過多項指標的監控分析,實現故障訓前發現,有效控制大模型訓練中斷恢復時長,實現訓練任務長期穩定、高可用運行。此外,天翼云基于國產萬卡智算集群和自研智算平臺,已具備支撐萬億參數基礎大模型訓練的能力。

在訓推服務能力方面,“息壤”一站式的訓推服務能力,可降低大模型應用創新開發門檻,實現了業界首個國產芯片萬卡并行訓練。平臺預置行業數據集、主流開閉源基礎大模型,并提供模型訓練全棧工具鏈,將大模型精調場景簡化操作至選數據、選硬件和選模型三個步驟,簡化部署、提升效率;通過自研AI框架、3D并行加速、自研訓練加速庫、容器調度優化等核心技術,大幅提升訓練效率;通過模型量化壓縮、自研推理加速算子庫、自研AI推理加速框架等核心技術,顯著提高推理效率;通過全鏈路故障檢測、定位、告警,全鏈路日志監控與可視化、斷點續訓快速恢復等核心技術,提升大規模集群訓推穩定性。其中,斷點續訓實現分鐘級發現、定位、恢復,覆蓋75%的故障場景,支持優雅容錯無感恢復,MFU(算力利用率)達業界領先水平。

在近期公布的2024IOMM數智化轉型最新評估結果中,天翼云息壤·一站式智算服務平臺在模型管理、模型開發、模型訓練、模型推理、資源調度、性能等11個能力領域35個測試項中全部通過,以“卓越級”能力通過評估。

人工智能已經成為數字經濟發展的新引擎。作為云計算原創技術策源地、數字中國建設主力軍,天翼云將持續攻關云計算領域核心技術,不斷迭代升級“息壤”一體化智算服務體系和能力,賦能企業跑出“AI加速度”,攜手行業共同推動經濟社會智能化水平邁向新高度。

掃一掃在手機打開當前頁