我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
抗英统一战线从UB到NVLink对抗看国产算力生态突围
视频
音频
原始脚本
抗英统一战线,从 UB 与 NVLink 对抗看国产算力生态突围。 在 AI 算力角逐的下半场,连接已成为决定胜负的关键。 而英伟达正是通过一套精妙的内外勾结,构筑了难以撼动的算力霸权。 他在机柜内用 NVLink,在机柜间用 Infiniband,将两者牢牢绑定成一个昂贵的、封闭的黑盒子。 这套组合拳如同算力领域的英系霸权,让全球数据中心和科研机构的经费大量消耗在这两个极贵极贵的专有设备上。 华为 UB,统一互联协议的横空出世,不仅是一次技术突破,更是一场从硬件架构到软件生态的系统性反击。 它以统一协议打破了机柜内用 NVLink、机柜间用 Infiniband 的割裂局面,用一套方案同时实现了总线级性能和网络级规模,更通过开放协议加 生态联盟串联起 AMD、英特尔等边缘力量,构建起对抗英伟达与 Infiniband 的抗英统一战线。 这场对抗的核心早已不是单点技术的比拼,而是生态话语权与算力自主权的博弈。 一、解构英系霸权。 英伟达与 Infiniband 的垄断逻辑,英伟达的算力护城河从来不是单一 GPU 的性能优势。 而是 NVLink 与 InfiniBand、CUDA 构建的软硬共生体系。 从硬件层面看,NVLink 作为英伟达专属机柜内互联协议,采用点对点铜缆连接,将 GPU 间通信时延压缩至百纳秒级。 72卡机B200机柜可实现720 FLOPS 的 AI 训练性能。 但其本质是封闭的中心化架构,所有设备需围绕 GPU 调度。 内存访问、数据传输逻辑均封装在黑盒中,第三方芯片如 AMD GPU、国产 NPU 无法接入。 而机柜间的互联则完全依赖 Infiniband,这种专有网络技术虽能实现 TB 级带宽和低延迟,但设备如交换机、网卡价格高昂,单套万卡集群的 Infiniband 网络设备采购成本就超1元,且需依赖英伟达的配套软件站才能发挥最佳性能。 这种机柜内 NVLink 加机柜间 Infiniband 的绑定模式,形成了双重锁定。 用户若选择英伟达 GPU ,就必须接受其封闭的互联生态,不仅硬件采购成本极高,软件层面还需依赖 CUDA ,开发者迁移成本高达数百万行代码。 更关键的是 Infiniband 高昂价格和专有性,让中小科研机构和企业望而却步。 进一步巩固了英伟达在高端算力市场的垄断地位。 全球80%~95%的 AI 数据中心市场份额,正是源于这套硬件绑定协议、协议绑定软件的垄断链条。 二、UB 的系统性破局,从硬件架构到软件生态的全面反击,华为 UB 的突破绝非简单的 NVLink 或 Infiniband 的替代品,而是一套针对英系霸权的系统性解决方案。 在硬件层面,UB 以全对等架构加光缆互联,重构了算力连接逻辑。 不同于 NVLink 的 GPU 中心化和 Infiniband 的网络设备中转。 UB 让所有设备 NPU、CPU、内存、存储地位平等,任何设备可通过 load、store 指令直接读 读写其他设备资源,无需 CPU 中转或协议翻译。 以384卡 Cloud Matrix 超节点为例,其通过 UB 将16个机柜、192颗鲲鹏 CPU、384颗昇腾910C CPU 无缝连接,实现一个大脑协同工作。 而英伟达72卡集群 要扩展至同等规模,需额外部署数十台 Infiniband 的交换机,不仅成本翻倍,延迟还会因多跳转发增加3~5微秒。 在互联介质选择上,UB 的光缆替代铜缆策略更是扬长避短。 制裁之下,华为无法获取高端铜缆互联芯片,转而发挥光通信领域的技术积累。 光缆传输速率堪比城际高铁,节点间带宽达 TB 级,跨柜卡间延迟仅二,一微秒,且传输距离远超铜缆,支持跨机柜、跨机房互联。 尽管光缆与光模块成本较高,但华为通过机柜级液冷,单柜散热能力583千瓦,UB mesh 组网,and four mesh 拓扑,减少26%光模块用量等工程创新,将384卡超节点的整体成本控制在英伟达72 卡,GB200机柜的1,5倍以内。 而算力密度,每机柜 AI 算力却是后者的5倍以上。 软件层面,UB 与 CNN Mindspore 共同构建了开放的软硬协同体系。 不同于 CUDA 的封闭生态,UB 协议已开放领取二。 零规范、牛信半导体等伙伴已推出兼容 P H Y I P C A N N 8.0版本,新增200多个优化算子。 典型算子开发周期从2人月缩短至15人周,且支持 PyTorch 推理性能提升30%,逐步降低开发者的迁移成本。 更关键的是,华为通过讯推供卡、负载均衡等软件优化,将384卡超节点的算力利用率提升至50%,远超行业平均的30%~35%。 这意味着即便单卡性能不及英伟达 GPU,通过软件层面的高效调度,整体集群性能仍能与 与英伟达72卡集群持平。 三、抗英统一战线的构建。 团结盟友,聚焦核心矛盾。 抗英统一战线的核心逻辑是聚焦最大敌人,团结可团结力量。 当前算力领域的主要矛盾是英伟达、 NVLink 加 InfiniBand 加 CUDA 的垄断,与全球算力多样化需求的冲突。 而 AMD 应 英特尔等厂商,正是打破这一垄断的关键盟友。 从技术路线看,AMD 的 GPU,英特尔的 ZON CPU 均以通用 PCIe 接口为主,无专属互联协议,长期受制于英伟达的生态封闭。 AMD 虽推出 MCM 架构 GPU,但因缺乏高效互联协议,多卡集群性能仅为同规模英伟达集群的60%。 英特尔的 Z2 CPU 与 GPU 互联依赖 PCIE 50,延迟与带宽均不及 NVLink 加 InfiniBand 的组合。 这些厂商虽与华为存在竞争关系,但在打破英伟达垄断这一核心目标上高度一致。 而 UB 的开放协议恰好为他们提供了接入高端 AI 集群的通道。 华为已通过技术兼容加订单牵引推动盟友合作。 一方面,UB 支持 UBOE 模式,UB over Ethernet。 MD GPU、英特尔 CPU 可通过 PCIe 转 UB 桥接模块接入 UB 集群,无需重购硬件。 另一方面,国内阿里、字节跳动等企业的384卡超节点采购计划,仅阿里就计划采购500套,为 AMD、英特尔提供了接入国产超节点的市场需求。 若这些厂商支持 UB 协议,就能共享千亿级订单,反之则将失去中国超大规模算力市场。 目前 AMD 已与华为探讨 UB 兼容 GPU 的研发,英特尔则计划推出支持 UB 的服务器主板。 对于 Infiniband 的高价专用设备,统一战线的破局策略是通用替代加成本优势。 华为联合国内厂商开发 UB 兼容的高带宽存储控制器、工业级互联芯片,性能达到 Infiniband 同类产品的90%,而成本仅为后者的1/3。 同时,通过国产光模块替代,如中际旭创、天孚通信的 UB 兼容光模块,将超节点光模块采购成本降低20%。 这种通用化加国产化的组合拳,正在逐步挤压 Infiniband 的市场空间。 2025年上半年,国内 AI 数据中心 Infiniband 的专用设备的采购占比已从2024年的35%降至至22%。 四、差距与突围,从跟跑到换道的持久战。 尽管 UB 生态已展现出强大的破局能力,但与英伟达的差距仍需客观看待。 硬件层面,英伟达 GB 200采用3纳米工艺,单卡 FP 8算力达32 FLOPS,而华为昇腾910仍为7纳米工艺,单卡算力约20 FLOPS。 软件层面,CUDA 拥有20年生态积累,全球超400万开发者。 而 R 三开发者数量仅为其1/5,部分细分领域的算子库仍需完善。 此外,英伟达的 NVLink Switch 7.2T已实现72卡集群的0丢包传输。 而 UB 在8192卡超节点中,仍存在0.5%~1%的数据包重传率。 虽不影响整体性能,但稳定性仍需优化。 不过,华为的突围路径并非正面硬刚,而是换道竞争。 英伟达依赖单卡性能加封闭生态,而华为聚焦系统性能加开放生态。 通过384卡超节点的群计算,弥补单卡性能差距。 通过开放 UB 协议、开源 CINN,吸引全球开发者加入。 这种以生态补性能、以规模补单点的策略已在国内市场初见成效。 2025年上半年,华为昇腾在国内 AI 芯片市场的份额从2024年的18%升至27%。 而英伟达受 H20限制,份额从75%降至63%。 从国家战略层面看,千亿级的超节点采购计划,如阿里、腾讯的采购,不仅是市场支持,更是生态培育,大量的实际应用场景正在倒逼 UB 生态完善。 主板厂商浪潮曙光推出 UB 加 PCIE 双协议主板,光模块厂商中际旭创优化 UB 兼容产品,软件厂商商汤旷视开发适配 UB 的大模型训练框架。 这种需求牵引技术、技术反哺生态的正向循环正是国产算力对抗英伟达的长期底气。 5,结语。 算力自主的长征路,UB 与 NVLink、Infiniband 的对抗,本质是开放生态与封闭霸权的较量。 而抗英统一战线的构建,绝非短期的技术比拼,而是一场关乎算力自主的长征。 英伟达的垄断并非不可打破,当年 IBM 凭借大型机垄断市场,最终被 PC 生态颠覆。 如今,AI 算力的多样化需求,如边缘计算、工业 AI、大模型训推,正是开放生态崛起的土壤。 华为 UB 的意义不仅在于提供了一种 NVLink 加 Finney Band 的替代方案,更在于探索出一条非摩尔定律时代的算力突围路径。 当单芯片工艺受限时,通过系统工程、互联、散热、软件的突破,仍能实现算力的跨越式提升。 当生态被封锁时,通过开放合作、团结盟友,仍能够建起自主可控的产业体系。 这场抗英之战或许需要5年、10年甚至更久。 但只要坚持开放、协同、自主的方向,国产算力终将从跟跑走向领跑,为全球算力生态注入中国方案的力量。
修正脚本
抗英统一战线,从 UB 与 NVLink 对抗看国产算力生态突围。 在 AI 算力角逐的下半场,连接已成为决定胜负的关键。 而英伟达正是通过一套精妙的内外布局,构筑了难以撼动的算力霸权。 它在机柜内用 NVLink,在机柜间用 Infiniband,将两者牢牢绑定成一个昂贵的、封闭的黑盒子。 这套组合拳如同算力领域的英系霸权,让全球数据中心和科研机构的经费大量消耗在这两个极贵极贵的专有设备上。 华为 UB,统一互联协议的横空出世,不仅是一次技术突破,更是一场从硬件架构到软件生态的系统性反击。 它以统一协议打破了机柜内用 NVLink、机柜间用 Infiniband 的割裂局面,用一套方案同时实现了总线级性能和网络级规模,更通过开放协议加生态联盟串联起 AMD、英特尔等边缘力量,构建起对抗英伟达与 Infiniband 的抗英统一战线。 这场对抗的核心早已不是单点技术的比拼,而是生态话语权与算力自主权的博弈。 一、解构英系霸权。 英伟达与 Infiniband 的垄断逻辑,英伟达的算力护城河从来不是单一 GPU 的性能优势。 而是 NVLink 与 InfiniBand、CUDA 构建的软硬共生体系。 从硬件层面看,NVLink 作为英伟达专属机柜内互联协议,采用点对点铜缆连接,将 GPU 间通信时延压缩至百纳秒级。 72卡GB200机柜可实现720 FLOPS 的 AI 训练性能。 但其本质是封闭的中心化架构,所有设备需围绕 GPU 调度。 内存访问、数据传输逻辑均封装在黑盒中,第三方芯片如 AMD GPU、国产 NPU 无法接入。 而机柜间的互联则完全依赖 Infiniband,这种专有网络技术虽能实现 TB 级带宽和低延迟,但设备如交换机、网卡价格高昂,单套万卡集群的 Infiniband 网络设备采购成本就超1亿元,且需依赖英伟达的配套软件栈才能发挥最佳性能。 这种机柜内 NVLink 加机柜间 Infiniband 的绑定模式,形成了双重锁定。 用户若选择英伟达 GPU ,就必须接受其封闭的互联生态,不仅硬件采购成本极高,软件层面还需依赖 CUDA ,开发者迁移成本高达数百万行代码。 更关键的是 Infiniband 高昂价格和专有性,让中小科研机构和企业望而却步。 进一步巩固了英伟达在高端算力市场的垄断地位。 全球80%~95%的 AI 数据中心市场份额,正是源于这套硬件绑定协议、协议绑定软件的垄断链条。 二、UB 的系统性破局,从硬件架构到软件生态的全面反击,华为 UB 的突破绝非简单的 NVLink 或 Infiniband 的替代品,而是一套针对英系霸权的系统性解决方案。 在硬件层面,UB 以全对等架构加光缆互联,重构了算力连接逻辑。 不同于 NVLink 的 GPU 中心化和 Infiniband 的网络设备中转。 UB 让所有设备 NPU、CPU、内存、存储地位平等,任何设备可通过 load、store 指令直接读写其他设备资源,无需 CPU 中转或协议翻译。 以384卡 Cloud Matrix 超节点为例,其通过 UB 将16个机柜、192颗鲲鹏 CPU、384颗昇腾910C NPU 无缝连接,实现一个大脑协同工作。 而英伟达72卡集群 要扩展至同等规模,需额外部署数十台 Infiniband 的交换机,不仅成本翻倍,延迟还会因多跳转发增加3~5微秒。 在互联介质选择上,UB 的光缆替代铜缆策略更是扬长避短。 制裁之下,华为无法获取高端铜缆互联芯片,转而发挥光通信领域的技术积累。 光缆传输速率堪比城际高铁,节点间带宽达 TB 级,跨柜卡间延迟仅1~2微秒,且传输距离远超铜缆,支持跨机柜、跨机房互联。 尽管光缆与光模块成本较高,但华为通过机柜级液冷,单柜散热能力583千瓦,UB mesh 组网,and four mesh 拓扑,减少26%光模块用量等工程创新,将384卡超节点的整体成本控制在英伟达72 卡,GB200机柜的1.5倍以内。 而算力密度,每机柜 AI 算力却是后者的5倍以上。 软件层面,UB 与 CANN Mindspore 共同构建了开放的软硬协同体系。 不同于 CUDA 的封闭生态,UB 协议已开放2.0规范,多家半导体等伙伴已推出兼容 PHY、IP、CANN 8.0版本,新增200多个优化算子。 典型算子开发周期从15人月缩短至2人周,且支持 PyTorch 推理性能提升30%,逐步降低开发者的迁移成本。 更关键的是,华为通过训推共卡、负载均衡等软件优化,将384卡超节点的算力利用率提升至50%,远超行业平均的30%~35%。 这意味着即便单卡性能不及英伟达 GPU,通过软件层面的高效调度,整体集群性能仍能与英伟达72卡集群持平。 三、抗英统一战线的构建。 团结盟友,聚焦核心矛盾。 抗英统一战线的核心逻辑是聚焦最大敌人,团结可团结力量。 当前算力领域的主要矛盾是英伟达、 NVLink 加 InfiniBand 加 CUDA 的垄断,与全球算力多样化需求的冲突。 而AMD、英特尔等厂商,正是打破这一垄断的关键盟友。 从技术路线看,AMD 的 GPU,英特尔的 ZON CPU 均以通用 PCIe 接口为主,无专属互联协议,长期受制于英伟达的生态封闭。 AMD 虽推出 MCM 架构 GPU,但因缺乏高效互联协议,多卡集群性能仅为同规模英伟达集群的60%。 英特尔的 Z2 CPU 与 GPU 互联依赖 PCIe 5.0,延迟与带宽均不及 NVLink 加 InfiniBand 的组合。 这些厂商虽与华为存在竞争关系,但在打破英伟达垄断这一核心目标上高度一致。 而 UB 的开放协议恰好为他们提供了接入高端 AI 集群的通道。 华为已通过技术兼容加订单牵引推动盟友合作。 一方面,UB 支持 UBOE 模式,UB over Ethernet。 AMD GPU、英特尔 CPU 可通过 PCIe 转 UB 桥接模块接入 UB 集群,无需重购硬件。 另一方面,国内阿里、字节跳动等企业的384卡超节点采购计划,仅阿里就计划采购500套,为 AMD、英特尔提供了接入国产超节点的市场需求。 若这些厂商支持 UB 协议,就能共享千亿级订单,反之则将失去中国超大规模算力市场。 目前 AMD 已与华为探讨 UB 兼容 GPU 的研发,英特尔则计划推出支持 UB 的服务器主板。 对于 Infiniband 的高价专用设备,统一战线的破局策略是通用替代加成本优势。 华为联合国内厂商开发 UB 兼容的高带宽存储控制器、工业级互联芯片,性能达到 Infiniband 同类产品的90%,而成本仅为后者的1/3。 同时,通过国产光模块替代,如中际旭创、天孚通信的 UB 兼容光模块,将超节点光模块采购成本降低20%。 这种通用化加国产化的组合拳,正在逐步挤压 Infiniband 的市场空间。 2025年上半年,国内 AI 数据中心 Infiniband 的专用设备的采购占比已从2024年的35%降至22%。 四、差距与突围,从跟跑到换道的持久战。 尽管 UB 生态已展现出强大的破局能力,但与英伟达的差距仍需客观看待。 硬件层面,英伟达 GB 200采用3纳米工艺,单卡 FP 8算力达32 FLOPS,而华为昇腾910仍为7纳米工艺,单卡算力约20 FLOPS。 软件层面,CUDA 拥有20年生态积累,全球超400万开发者。 而昇腾开发者数量仅为其1/5,部分细分领域的算子库仍需完善。 此外,英伟达的 NVLink Switch 7.2T已实现72卡集群的0丢包传输。 而 UB 在8192卡超节点中,仍存在0.5%~1%的数据包重传率。 虽不影响整体性能,但稳定性仍需优化。 不过,华为的突围路径并非正面硬刚,而是换道竞争。 英伟达依赖单卡性能加封闭生态,而华为聚焦系统性能加开放生态。 通过384卡超节点的群计算,弥补单卡性能差距。 通过开放 UB 协议、开源 CINN,吸引全球开发者加入。 这种以生态补性能、以规模补单点的策略已在国内市场初见成效。 2025年上半年,华为昇腾在国内 AI 芯片市场的份额从2024年的18%升至27%。 而英伟达受 H20限制,份额从75%降至63%。 从国家战略层面看,千亿级的超节点采购计划,如阿里、腾讯的采购,不仅是市场支持,更是生态培育,大量的实际应用场景正在倒逼 UB 生态完善。 主板厂商浪潮曙光推出 UB 加 PCIE 双协议主板,光模块厂商中际旭创优化 UB 兼容产品,软件厂商商汤旷视开发适配 UB 的大模型训练框架。 这种需求牵引技术、技术反哺生态的正向循环正是国产算力对抗英伟达的长期底气。 五、结语。 算力自主的长征路,UB 与 NVLink、Infiniband 的对抗,本质是开放生态与封闭霸权的较量。 而抗英统一战线的构建,绝非短期的技术比拼,而是一场关乎算力自主的长征。 英伟达的垄断并非不可打破,当年 IBM 凭借大型机垄断市场,最终被 PC 生态颠覆。 如今,AI 算力的多样化需求,如边缘计算、工业 AI、大模型训推,正是开放生态崛起的土壤。 华为 UB 的意义不仅在于提供了一种 NVLink 加 Infiniband 的替代方案,更在于探索出一条非摩尔定律时代的算力突围路径。 当单芯片工艺受限时,通过系统工程、互联、散热、软件的突破,仍能实现算力的跨越式提升。 当生态被封锁时,通过开放合作、团结盟友,仍能够建起自主可控的产业体系。 这场抗英之战或许需要5年、10年甚至更久。 但只要坚持开放、协同、自主的方向,国产算力终将从跟跑走向领跑,为全球算力生态注入中国方案的力量。
back to top