我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
AI时代的总线战争
视频
音频
原始脚本
AI 时代的总线战争,协议主导权之争下的国产突围。 当所有人还在紧盯英伟达 H200的算力、ASML 光刻机的精度时,AI 大模型训练的核心战场早已悄然转移。 单卡性能的提升已逼近物理与成本极限,卡间数据传输的带宽与时延才是当前制约算力突破的真正瓶颈。 如今的 AI 训练早已不是单卡独秀,而是万卡协同。 数据在算力卡之间的流转效率直接决定了大模型训练的速度与成本。 遗憾的是,这一关键痛点不仅被普通人忽视,就连不少行业从业者仍执着于单卡性能的比拼,却未察觉真正的算力革命早已发生在卡与卡之间的总线赛道上。 当 AI 大模型对卡间传输的需求以数月翻倍的速度狂飙,传统 PCIe 协议数年一代速率翻倍的迭代节奏早已捉襟见肘。 这场算力需求与传输技术的供需失衡直接引爆了全球 AI 行业的总线战争,谁能主导卡间互联的协议标准,谁就能掌握算力集群的生态话语权。 而这正是决定未来 AI 产业格局的核心战场。 英伟达对高端显卡的出口限制,本质上也是对高带宽互联技术的封锁。 这更印证了总线技术的战略重要性,单卡再强,若无法高效协同,也只是孤立的算力孤岛。 唯有打通卡间传输的高速公路,才能让万卡集群真正释放出颠覆式的算力。 一,为何总线战争是 AI 时代的必争之地?总线作为算力卡间数据流通的高速公路,其带宽、时延与兼容性直接决定了 AI 训练的效率上限。 在大模型参数规模突破万亿,算力集群规模达数千张卡的今天,总线的重要性被推向极致。 性能瓶颈的核心突破口,AI 训练中,卡间数据交换耗时占比已超计算本身。 传统 PCIE 5.0的传输速率远不能满足需求,而定制化互联协议能将时延压制微秒级,带宽提升数倍。 成为突破算力天花板的关键。 生态霸权的前置战场,协议主导权意味着适配规则的制定权。 一旦某类协议形成规模效应,下游硬件厂商、软件开发者、数据中心都将被迫兼容,最终形成赢者通吃的生态壁垒。 自主可控的底层根基,总线控制器协议专利长期被欧美垄断。 若无法掌握自主协议,即便国产算力卡性能达标,也会因传输通道受制于人,陷入卡脖子困境。 二、当前总线战争的格局,四分天下。 生态歌剧面对 PCIE 的滞后性,全球科技巨头纷纷推出定制化互联协议,形成四大阵营歌剧的态势,各有核心优势与生态壁垒。 英伟达 NVLink 行业标杆级存在,凭借 H100、H200的市场垄断地位,实现卡间双向带宽超900GB 每秒,且与 CUDA 生态深度绑定。 其优势在于硬件件加软件加协议的闭环。 缺点是封闭性极强,仅支持英伟达自家显卡,形成技术壁垒。 AMD Infinity Fabric 原 ULA Link ,主打异构兼容,可连接 CPU、GPU、FPGA 等多类设备,带宽与 NVLink 接近,且开 开放程度更高,试图依托服务器市场份额打破英伟达垄断。 但生态成熟度仍有差距。 谷歌 TPU interconnect 为自家 TPU 集群量身定制,聚焦云端大规模训练,具备超低时延的优势。 与 Google Cloud 的生态深度融合,但其应用场景高度集中,通用性不足。 华为 Matrix Link 国产阵营的核心力量,带宽达800GB 每秒以上,支持昇腾系列芯片的全互联。 且兼容 PCIe 协议,兼顾自主化与兼容性,是国内唯一能与国际巨头抗衡的协议方案,但生态覆盖范围仍需拓展。 此外,PCIe 联盟虽在推进6.0速率256GB每秒,7.0速率512GB每秒标准。 但按传统节奏,7.0全面商用需等到2030年前后,完全无法匹配 AI 算力的增长速度,已沦为备用选项。 三、国产阵营的现状,追赶加速,但痛点凸显在国内算力自主化政策推动下,国产总线协议已实现从0到1的突破。 但仍处于追赶者地位,面临三大核心痛点,生态规模不足。 华为 Matrix Link 虽技术达标,但昇腾芯片的市场占有率仍低于英伟达,导致适配的软件框架、第三方硬件数量有限,形成技术可行,但生态不旺的困境。 专利与测试壁垒,欧美企业早于数十年布局总线专利,国产协议面临潜在侵权风险。 同时,协议测试设备认证体系被国外厂商垄断,制约了技术迭代与商业化落地。 协同性不足,国内除华为外,摩尔线程、毕任等企业也在探索自有协议,缺乏统一的行业标准,导致资源分散。 难以形成合力对抗国际巨头。 但值得关注的是,国产阵营已呈现加速追赶态势,MatrixLink 已在政务、金融等国产化项目中规模化应用,曙光等厂商的算力机柜也已适配该协议,部分高校与科研机构开始共建协议测试平台,打破国外认证垄断。 四、国产突围的三大方向与未来趋势。 面对全球竞争,国产总线协议要实现突围,需聚焦技术迭代、加生态共建、加标准统一三大方向,同时顺应行业发展趋势。 一、核心突围路径一,技术上兼容加超越。 坚持自主化为主,兼容性为辅。 在提升协议带宽、降低时延的同时,保持对 PCIE 的兼容,降低数据中心迁移成本,快速扩大应用场景。 二、生态上开放加共建,联合国内硬件厂商、软件开发方、云服务商成立联盟。 开放协议接口,鼓励第三方适配,形成芯片协议软件应用的国产闭环,避免单打独斗。 三、标准上自主加参与,加快制定国产总线协议的行业标准,同时积极参与国际标准制定,争夺话语权,减少专利侵权风险。 二、未来发展趋势,协议专用化加融合化并行。 一方面,针对 AI 训练、边缘计算等场景的专用协议将持续迭代。 另一方面,兼容多场景的通用化协议将成为竞争焦点,兼顾效率与灵活性。 总线加光互联成为标配,为突破铜缆传输距离限制,光纤与定制化总线的结合将成为主流。 实现跨机柜、跨数据中心的高效互联,打破单机柜集群的规模上限。 国产协议规模化应用加国际化拓展,依托国内庞大的算力基建需求,国产协议将先实现规模化落地,再通过一带一路等合作契机,向海外拓展生态,打破欧美垄断。 总结,总线战争,关乎未来10年 AI 话语权。 这场总线战争,本质上是算力传输规则的争夺战,更是全球 AI 产业话语权的重新分配。 传统 PCIe 的滞后为后发者提供了弯道超车的机会,而国产阵营已站在关键的突围节点。 当前,国内虽面临生态、专利、标准等多重挑战,但凭借政策支持、庞大市场需求与技术突破,华为 Matrix Link 等方案已具备突围潜力。 未来,只有将技术自主与生态开放相结合,打破企业间的壁垒,形成国产协议的合力,才能在这场没有硝烟的战争中占据一席之地,为国产 AI 产业构建真正自主可控的底层传输根基。 而对于所有关注 AI 发展的人来说,是时候把目光从单卡性能上移开,卡间的总线赛道才是决定未来算力格局的终极战场。
修正脚本
AI 时代的总线战争,协议主导权之争下的国产突围。 当所有人还在紧盯英伟达 H200的算力、ASML 光刻机的精度时,AI 大模型训练的核心战场早已悄然转移。 单卡性能的提升已逼近物理与成本极限,卡间数据传输的带宽与时延才是当前制约算力突破的真正瓶颈。 如今的 AI 训练早已不是单卡独秀,而是万卡协同。 数据在算力卡之间的流转效率直接决定了大模型训练的速度与成本。 遗憾的是,这一关键痛点不仅被普通人忽视,就连不少行业从业者仍执着于单卡性能的比拼,却未察觉真正的算力革命早已发生在卡与卡之间的总线赛道上。 当 AI 大模型对卡间传输的需求以数月翻倍的速度狂飙,传统 PCIe 协议数年一代速率翻倍的迭代节奏早已捉襟见肘。 这场算力需求与传输技术的供需失衡直接引爆了全球 AI 行业的总线战争,谁能主导卡间互联的协议标准,谁就能掌握算力集群的生态话语权。 而这正是决定未来 AI 产业格局的核心战场。 英伟达对高端显卡的出口限制,本质上也是对高带宽互联技术的封锁。 这更印证了总线技术的战略重要性,单卡再强,若无法高效协同,也只是孤立的算力孤岛。 唯有打通卡间传输的高速公路,才能让万卡集群真正释放出颠覆式的算力。 一、为何总线战争是 AI 时代的必争之地?总线作为算力卡间数据流通的高速公路,其带宽、时延与兼容性直接决定了 AI 训练的效率上限。 在大模型参数规模突破万亿,算力集群规模达数千张卡的今天,总线的重要性被推向极致。 性能瓶颈的核心突破口:AI 训练中,卡间数据交换耗时占比已超计算本身。 传统 PCIE 5.0的传输速率远不能满足需求,而定制化互联协议能将时延压制到微秒级,带宽提升数倍。 成为突破算力天花板的关键。 生态霸权的前置战场:协议主导权意味着适配规则的制定权。 一旦某类协议形成规模效应,下游硬件厂商、软件开发者、数据中心都将被迫兼容,最终形成赢者通吃的生态壁垒。 自主可控的底层根基:总线控制器协议专利长期被欧美垄断。 若无法掌握自主协议,即便国产算力卡性能达标,也会因传输通道受制于人,陷入卡脖子困境。 二、当前总线战争的格局,四分天下。 面对 PCIe 的滞后性,全球科技巨头纷纷推出定制化互联协议,形成四大阵营割据的态势,各有核心优势与生态壁垒。 英伟达 NVLink 行业标杆级存在,凭借 H100、H200的市场垄断地位,实现卡间双向带宽超900GB 每秒,且与 CUDA 生态深度绑定。 其优势在于硬件加软件加协议的闭环。 缺点是封闭性极强,仅支持英伟达自家显卡,形成技术壁垒。 AMD Infinity Fabric 原 ULA Link ,主打异构兼容,可连接 CPU、GPU、FPGA 等多类设备,带宽与 NVLink 接近,且开放程度更高,试图依托服务器市场份额打破英伟达垄断。 但生态成熟度仍有差距。 谷歌 TPU interconnect 为自家 TPU 集群量身定制,聚焦云端大规模训练,具备超低时延的优势。 与 Google Cloud 的生态深度融合,但其应用场景高度集中,通用性不足。 华为 Matrix Link 国产阵营的核心力量,带宽达800GB 每秒以上,支持昇腾系列芯片的全互联。 且兼容 PCIe 协议,兼顾自主化与兼容性,是国内唯一能与国际巨头抗衡的协议方案,但生态覆盖范围仍需拓展。 此外,PCIe 联盟虽在推进6.0速率256GB每秒,7.0速率512GB每秒标准。 但按传统节奏,7.0全面商用需等到2030年前后,完全无法匹配 AI 算力的增长速度,已沦为备用选项。 三、国产阵营的现状:追赶加速,但痛点凸显。在国内算力自主化政策推动下,国产总线协议已实现从0到1的突破。 但仍处于追赶者地位,面临三大核心痛点,生态规模不足。 华为 Matrix Link 虽技术达标,但昇腾芯片的市场占有率仍低于英伟达,导致适配的软件框架、第三方硬件数量有限,形成技术可行,但生态不旺的困境。 专利与测试壁垒,欧美企业早于数十年布局总线专利,国产协议面临潜在侵权风险。 同时,协议测试设备认证体系被国外厂商垄断,制约了技术迭代与商业化落地。 协同性不足,国内除华为外,摩尔线程、壁仞等企业也在探索自有协议,缺乏统一的行业标准,导致资源分散。 难以形成合力对抗国际巨头。 但值得关注的是,国产阵营已呈现加速追赶态势,MatrixLink 已在政务、金融等国产化项目中规模化应用,曙光等厂商的算力机柜也已适配该协议,部分高校与科研机构开始共建协议测试平台,打破国外认证垄断。 四、国产突围的三大方向与未来趋势。 面对全球竞争,国产总线协议要实现突围,需聚焦技术迭代、生态共建、标准统一三大方向,同时顺应行业发展趋势。 一、技术上兼容加超越。 坚持自主化为主,兼容性为辅。 在提升协议带宽、降低时延的同时,保持对 PCIE 的兼容,降低数据中心迁移成本,快速扩大应用场景。 二、生态上开放加共建,联合国内硬件厂商、软件开发方、云服务商成立联盟。 开放协议接口,鼓励第三方适配,形成芯片协议软件应用的国产闭环,避免单打独斗。 三、标准上自主加参与,加快制定国产总线协议的行业标准,同时积极参与国际标准制定,争夺话语权,减少专利侵权风险。 二、未来发展趋势,协议专用化加融合化并行。 一方面,针对 AI 训练、边缘计算等场景的专用协议将持续迭代。 另一方面,兼容多场景的通用化协议将成为竞争焦点,兼顾效率与灵活性。 总线加光互联成为标配,为突破铜缆传输距离限制,光纤与定制化总线的结合将成为主流。 实现跨机柜、跨数据中心的高效互联,打破单机柜集群的规模上限。 国产协议规模化应用加国际化拓展,依托国内庞大的算力基建需求,国产协议将先实现规模化落地,再通过一带一路等合作契机,向海外拓展生态,打破欧美垄断。 总结,总线战争,关乎未来10年 AI 话语权。 这场总线战争,本质上是算力传输规则的争夺战,更是全球 AI 产业话语权的重新分配。 传统 PCIe 的滞后为后发者提供了弯道超车的机会,而国产阵营已站在关键的突围节点。 当前,国内虽面临生态、专利、标准等多重挑战,但凭借政策支持、庞大市场需求与技术突破,华为 Matrix Link 等方案已具备突围潜力。 未来,只有将技术自主与生态开放相结合,打破企业间的壁垒,形成国产协议的合力,才能在这场没有硝烟的战争中占据一席之地,为国产 AI 产业构建真正自主可控的底层传输根基。 而对于所有关注 AI 发展的人来说,是时候把目光从单卡性能上移开,卡间的总线赛道才是决定未来算力格局的终极战场。
back to top