我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
中国算力互联是一场革命
视频
音频
原始脚本
中国算力互联互通,不止联网,更是重构算力使用逻辑的底层革命。 很多人误以为算力互联只是用互联网把数据中心连起来,但实际上,它是国家层面解决算力硬瓶颈和产业软门槛的关键布局。 核心是通过星星硬件及互联加透明化调度星星,让 AI 程序员不用懂分布式技术,不用改一行代码。 就能调用全国的算力。 彻底打破传统算力使用的物理上限和技术壁垒。 这种变革的意义远超简单联网,甚至可能重塑全球算力竞争的规则。 一,先厘清传统算力使用的两大死结。 靠企业自己根本解不开,在国家推动算力互联之前,企业要想用大规模算力,比如100张 GPU 做 AI 训练,面临两个绕不开的坑。 这些坑靠单个企业的力量几乎无法解决。 一、物理死结,单机算力天花板触手可及,对硬件根本堆不动。 比如,主板插不下10张 GPU,供电散热扛不住只是表象,背后是单机算力的物理极限。 硬件层面,哪怕是超大型服务器,主板 PCIE 插槽数量、供电 功率,单台服务器最多支持4~8张高功耗 GPU,内存带宽,多卡同时读写会抢带宽,导致算力浪费,都是固定上限。 再想加卡,除非把服务器做的像冰箱一样大,根本不现实。 成本层面,就算企业砸钱定制超大机柜,单台机器的算力也有限,比如最多20张 GPU。 要凑100张 GPU ,就得买5台机器组成集群,但这又会陷入分布式的坑,成本直接翻好几倍。 更关键的是,美国靠单卡性能堆上线,比如 NVIDIA H100单卡算力极强。 但中国企业面临单卡性能不如人,加硬件卡脖子的问题,靠单机堆卡根本追不上,必须找到另一条路。 二、技术死结,分布式计算门槛太高,90%的 AI 程序员根本跨不过。 传统要想用多台机器的算力,比如5台机器共100张 GPU,必须做分布式改造。 这个过程对 AI 团队来说几乎是重做一遍系统。 第一步要拆任务,得专门懂 HPC 高性能计算的工程师。 把 AI 训练任务按 MapReduce 逻辑拆成5份,分别发给5台机器,还得考虑数据怎么分,任务怎么对齐。 第二步要抗延迟,普通互联网的延迟是毫秒级。 五台机器之间同步数据时,会出现快的等慢的,即木桶效应。 比如四台机器一秒算完,一台机器两秒算完,整体效率就被拖到两秒。 第三步要改代码,AI 程序员写的训练代码,比如用 PyTorch TensorFlow。 必须加大量分布式接口,比如 MPI Horovod 框架,否则程序根本认不出远程的 GPU 。 但大部分 AI 程序员只懂模型算法,不懂分布式技术,相当于让厨师去造锅炉,根本不现实。 这两个死结导致中国不缺零散的算力卡,比如国产昇腾卡、各类 GPU,单缺能把零散算力拧成一股绳的能力。 企业不缺 AI 算法人才,但缺能把算法用到大规模算力上的技术桥梁。 而国家的算力互联互通恰恰是来解这两个死结的。 二,算力互联的核心,用国家级基建,把复杂的分布式,藏到硬件底层,国家做的高速互联总线加算力调度。 本质是搭建一套国家级的虚拟硬件平台,把全国的算力卡、存储、网络整合成一个看不见的超级计算机。 对 AI 程序员来说 说,所有复杂的分布式逻辑都透明化,他看到的只有一台能无限扩展的本地机器。 具体靠两个关键动作实现,一,底层建硬件及互联通道,把跨地域的算力变成本地总线,传统互联网连数据中心。 是软件级连接,比如用 TCP IP 协议传数据,延迟高,带宽有限。 而国家建的是硬件级互联,相当于把单机内部的 PCIE 总线用光纤拉长到全国。 网络上用1400G 骨干光纤,相当于算力高速路,400G 数据中心接入网相当于小区门口的快速路。 把跨地域的通讯延迟从毫秒级压到微秒级,比如从北京到上海的算力调用,延迟只有几十微秒,接近单机内部 GPU 和 CPU 的通讯速度。 协议上不用传统的网络协议,而是扩展硬件总线协议,比如 PCIe、Over CXL、NVLink,让远程的 GPU 能直接听懂本地 CPU 的指令。 比如 CPU 要给上海的 GPU 发任务,不用先做数据封装加网络转发,直接像给本地 GPU 发指令一样,通过扩展后的 PCIe 协议传过去,相当于上海的 GPU 就是本地主板上的一张扩展卡。 举个例子,你在深圳的电脑上跑 AI 训练,需要100张 GPU。 底层的高速互联总线会自动连接北京、河南、广东的100张卡。 通过硬件及协议把这些卡串成你电脑的虚拟扩展槽,通讯速度和本地卡几乎没区别。 二,中层做智能调度,把易购算力变成统一资源池。 你担心的不同厂商的卡,Nvidia、升腾、TPU 不兼容,有的快有的慢。 靠国家推动的算力调度卡,比如华为的调度设备就能解决。 第一步,算力感知。 调度卡会实时扫描全国的算力资源,记录每张卡的型号、性能、空闲状态。 比如北京节点有20张昇腾910,算力200 TOPS。 河南节点有80张 NVIDIA A100,算力800 TOPS。 第二步,智能分配。 根据你的任务需求,比如训练大模型需要100张卡,优先用算力高的,自动匹配最优的100张卡,然后通过虚拟化技术,把这些易购的卡伪装成同一型号的本地卡。 哪怕有的卡快,有的卡慢,调度卡会动态分配任务量,快的卡多算一点,慢的卡少算一点,避免木桶效应。 第三步,透明化调用。 对上层 AI 程序来说,完全感知不到这些卡来自哪里,是什么型号。 程序以为这100张卡都在本地,直接按单机多卡的逻辑跑代码。 不用加任何分布式接口,底层的调度卡和互联总线会自动完成任务分发、数据同步、结果汇总。 简单说,AI 程序员只需要专注怎么优化模型。 不用管算力在哪,怎么连,怎么分任务,国家建的这套体系会把所有复杂工作扛下来。 三 为什么必须国家来做?企业根本没能力搞算力基建,很多人疑惑,企业自己不能连数据中心吗?为什么要国家出面?因为这套体系的核心是统一标准加跨区域协同,靠单个企业根本做不到。 一,第一,需要跨企业、跨地域的网络基建。 企业没权限也没资金,要实现微秒级延迟,必须用光纤直连,不是普通互联网。 比如从北京到上海拉一条专属光纤,还要建大量的算力交换节点,这需要协调电信运营商、移动、联通、电信、电力部门、地方政府。 单个企业,哪怕是华为、阿里,也没能力跨地域协调这么多资源。 而且这种基建的投资是千亿级,靠企业自己根本投不起,必须国家牵头。 二,第二,需要统一的协议标准,避免各自为战。 如果每个企业都按自己的标准做互联,比如阿里用 A 协议,腾讯用 B 协议,那么阿里的数据中心和腾讯的数据中心就没法互通,算力还是碎片化的。 国家推动的算力互联互通行动计划,本质是制定全国统一的协议标准,比如统一用 CXL 协议,统一的算力标识。 让所有企业的算力都能讲同一种语言,真正形成全国算力池。 三,第三,需要公平调度,避免大企业垄断算力。 如果靠企业自己搞,头部企业,比如美国的微软、谷歌,会垄断优质算力,中小企业根本用不上。 国家做的调度体系会优先保障关键领域,比如科研、国产大模型、智能制制造的算力需求 让中小企业也能用得起、用得到全国的算力,避免算力垄断。 四,对中美算力竞争的意义,用互联能力补单卡短板,换道超车美国的算力优势。 靠的是单卡性能强加高密度集群,比如 NVIDIA H100单卡算力领先,再堆成1000卡的超算。 但它面临电力短缺,2027年今年40%数据中心受限,电网老化的硬约束很难无限制扩集群。 而中国的算力互联,恰恰是用互联能力弥补单卡性能不足,走出一条更可持续的路。 从硬件依赖到体系优势,中国不用再纠结单张国产卡不如 H100,而是通过互联把1000张国产卡,比如昇腾910,整合成算力总量不输美国超算的资源池。 而且成本更低,电力更分散,可以把算力中心建在西部清洁能源丰富的地区,避开东部电力紧张。 从技术壁垒到产业普惠,美国的分布式计算技术掌握在少数 HPC 工程师手里。 而中国通过算力互联,让普通 AI 程序员也能调用大规模算力,相当于把高端算力的门槛从博士级降到本科级,能快速培养大量 AI 应用人才,推动算力在智能制造、远程医疗、自动驾驶等领域的落地。 毕竟,算力的价值最终要靠用起来 体现,而不是堆起来。 总结,算力互联不是联网,而是算力生产关系的革命。 传统算力使用是企业自己买硬件,自己搞分布式,自己扛成本,相当于每家都要自己挖井喝水。 而国家的算力互联是建一套全国统一的自来水管道,企业只需要打开水龙头调用算力,不用管水从哪来,管道怎么铺。 这种变革的意义不仅是解决当下的算力短缺,更重要的是它让中国在单卡硬件暂时落后的情况下,通过体系化创新构建起算力资源更普惠、使用成本更低、可持续性更强的优势。 为未来 AI 产业的规模化发展打下底层基础,这才是算力互联最核心的价值,也是很多人没意识到的国家布局的深意。
修正脚本
中国算力互联互通,不止联网,更是重构算力使用逻辑的底层革命。 很多人误以为算力互联只是用互联网把数据中心连起来,但实际上,它是国家层面解决算力硬瓶颈和产业软门槛的关键布局。 核心是通过新型硬件级互联加透明化调度,让 AI 程序员不用懂分布式技术,不用改一行代码。 就能调用全国的算力。 彻底打破传统算力使用的物理上限和技术壁垒。 这种变革的意义远超简单联网,甚至可能重塑全球算力竞争的规则。 一,先厘清传统算力使用的两大死结。 靠企业自己根本解不开,在国家推动算力互联之前,企业要想用大规模算力,比如100张 GPU 做 AI 训练,面临两个绕不开的坑。 这些坑靠单个企业的力量几乎无法解决。 一、物理死结,单机算力天花板触手可及,硬件根本堆不动。 比如,主板插不下10张 GPU,供电散热扛不住只是表象,背后是单机算力的物理极限。 硬件层面,哪怕是超大型服务器,主板 PCIE 插槽数量、供电功率,单台服务器最多支持4~8张高功耗 GPU,内存带宽,多卡同时读写会抢带宽,导致算力浪费,都是固定上限。 再想加卡,除非把服务器做的像冰箱一样大,根本不现实。 成本层面,就算企业砸钱定制超大机柜,单台机器的算力也有限,比如最多20张 GPU。 要凑100张 GPU ,就得买5台机器组成集群,但这又会陷入分布式的坑,成本直接翻好几倍。 更关键的是,美国靠单卡性能堆上限,比如 NVIDIA H100单卡算力极强。 但中国企业面临单卡性能不如人,加硬件卡脖子的问题,靠单机堆卡根本追不上,必须找到另一条路。 二、技术死结,分布式计算门槛太高,90%的 AI 程序员根本跨不过。 传统要想用多台机器的算力,比如5台机器共100张 GPU,必须做分布式改造。 这个过程对 AI 团队来说几乎是重做一遍系统。 第一步要拆任务,得专门懂 HPC 高性能计算的工程师。 把 AI 训练任务按 MapReduce 逻辑拆成5份,分别发给5台机器,还得考虑数据怎么分,任务怎么对齐。 第二步要抗延迟,普通互联网的延迟是毫秒级。 五台机器之间同步数据时,会出现快的等慢的,即木桶效应。 比如四台机器一秒算完,一台机器两秒算完,整体效率就被拖到两秒。 第三步要改代码,AI 程序员写的训练代码,比如用 PyTorch TensorFlow。 必须加大量分布式接口,比如 MPI Horovod 框架,否则程序根本认不出远程的 GPU 。 但大部分 AI 程序员只懂模型算法,不懂分布式技术,相当于让厨师去造锅炉,根本不现实。 这两个死结导致中国不缺零散的算力卡,比如国产昇腾卡、各类 GPU,但缺能把零散算力拧成一股绳的能力。 企业不缺 AI 算法人才,但缺能把算法用到大规模算力上的技术桥梁。 而国家的算力互联互通恰恰是来解这两个死结的。 二,算力互联的核心,用国家级基建,把复杂的分布式,藏到硬件底层,国家做的高速互联总线加算力调度。 本质是搭建一套国家级的虚拟硬件平台,把全国的算力卡、存储、网络整合成一个看不见的超级计算机。 对 AI 程序员来说,所有复杂的分布式逻辑都透明化,他看到的只有一台能无限扩展的本地机器。 具体靠两个关键动作实现,一,底层建硬件级互联通道,把跨地域的算力变成本地总线,传统互联网连数据中心。 是软件级连接,比如用 TCP IP 协议传数据,延迟高,带宽有限。 而国家建的是硬件级互联,相当于把单机内部的 PCIE 总线用光纤拉长到全国。 网络上用1400G 骨干光纤,相当于算力高速路,400G 数据中心接入网相当于小区门口的快速路。 把跨地域的通讯延迟从毫秒级压到微秒级,比如从北京到上海的算力调用,延迟只有几十微秒,接近单机内部 GPU 和 CPU 的通讯速度。 协议上不用传统的网络协议,而是扩展硬件总线协议,比如 PCIe、Over CXL、NVLink,让远程的 GPU 能直接听懂本地 CPU 的指令。 比如 CPU 要给上海的 GPU 发任务,不用先做数据封装加网络转发,直接像给本地 GPU 发指令一样,通过扩展后的 PCIe 协议传过去,相当于上海的 GPU 就是本地主板上的一张扩展卡。 举个例子,你在深圳的电脑上跑 AI 训练,需要100张 GPU。 底层的高速互联总线会自动连接北京、河南、广东的100张卡。 通过硬件级协议把这些卡串成你电脑的虚拟扩展槽,通讯速度和本地卡几乎没区别。 二,中层做智能调度,把异构算力变成统一资源池。 你担心的不同厂商的卡,Nvidia、昇腾、TPU 不兼容,有的快有的慢。 靠国家推动的算力调度卡,比如华为的调度设备就能解决。 第一步,算力感知。 调度卡会实时扫描全国的算力资源,记录每张卡的型号、性能、空闲状态。 比如北京节点有20张昇腾910,算力200 TOPS。 河南节点有80张 NVIDIA A100,算力800 TOPS。 第二步,智能分配。 根据你的任务需求,比如训练大模型需要100张卡,优先用算力高的,自动匹配最优的100张卡,然后通过虚拟化技术,把这些异构的卡伪装成同一型号的本地卡。 哪怕有的卡快,有的卡慢,调度卡会动态分配任务量,快的卡多算一点,慢的卡少算一点,避免木桶效应。 第三步,透明化调用。 对上层 AI 程序来说,完全感知不到这些卡来自哪里,是什么型号。 程序以为这100张卡都在本地,直接按单机多卡的逻辑跑代码。 不用加任何分布式接口,底层的调度卡和互联总线会自动完成任务分发、数据同步、结果汇总。 简单说,AI 程序员只需要专注怎么优化模型。 不用管算力在哪,怎么连,怎么分任务,国家建的这套体系会把所有复杂工作扛下来。 三,为什么必须国家来做?企业根本没能力搞算力基建,很多人疑惑,企业自己不能连数据中心吗?为什么要国家出面?因为这套体系的核心是统一标准加跨区域协同,靠单个企业根本做不到。 一,第一,需要跨企业、跨地域的网络基建。 企业没权限也没资金,要实现微秒级延迟,必须用光纤直连,不是普通互联网。 比如从北京到上海拉一条专属光纤,还要建大量的算力交换节点,这需要协调电信运营商、移动、联通、电力部门、地方政府。 单个企业,哪怕是华为、阿里,也没能力跨地域协调这么多资源。 而且这种基建的投资是千亿级,靠企业自己根本投不起,必须国家牵头。 二,第二,需要统一的协议标准,避免各自为战。 如果每个企业都按自己的标准做互联,比如阿里用 A 协议,腾讯用 B 协议,那么阿里的数据中心和腾讯的数据中心就没法互通,算力还是碎片化的。 国家推动的算力互联互通行动计划,本质是制定全国统一的协议标准,比如统一用 CXL 协议,统一的算力标识。 让所有企业的算力都能讲同一种语言,真正形成全国算力池。 三,第三,需要公平调度,避免大企业垄断算力。 如果靠企业自己搞,头部企业,比如美国的微软、谷歌,会垄断优质算力,中小企业根本用不上。 国家做的调度体系会优先保障关键领域,比如科研、国产大模型、智能制造的算力需求,让中小企业也能用得起、用得到全国的算力,避免算力垄断。 四,对中美算力竞争的意义,用互联能力补单卡短板,换道超车美国的算力优势。 靠的是单卡性能强加高密度集群,比如 NVIDIA H100单卡算力领先,再堆成1000卡的超算。 但它面临电力短缺、电网老化的硬约束,预计2027年将有40%数据中心受限,很难无限制扩集群。 而中国的算力互联,恰恰是用互联能力弥补单卡性能不足,走出一条更可持续的路。 从硬件依赖到体系优势,中国不用再纠结单张国产卡不如 H100,而是通过互联把1000张国产卡,比如昇腾910,整合成算力总量不输美国超算的资源池。 而且成本更低,电力更分散,可以把算力中心建在西部清洁能源丰富的地区,避开东部电力紧张。 从技术壁垒到产业普惠,美国的分布式计算技术掌握在少数 HPC 工程师手里。 而中国通过算力互联,让普通 AI 程序员也能调用大规模算力,相当于把高端算力的门槛从博士级降到本科级,能快速培养大量 AI 应用人才,推动算力在智能制造、远程医疗、自动驾驶等领域的落地。 毕竟,算力的价值最终要靠用起来体现,而不是堆起来。 总结,算力互联不是联网,而是算力生产关系的革命。 传统算力使用是企业自己买硬件,自己搞分布式,自己扛成本,相当于每家都要自己挖井喝水。 而国家的算力互联是建一套全国统一的自来水管道,企业只需要打开水龙头调用算力,不用管水从哪来,管道怎么铺。 这种变革的意义不仅是解决当下的算力短缺,更重要的是它让中国在单卡硬件暂时落后的情况下,通过体系化创新构建起算力资源更普惠、使用成本更低、可持续性更强的优势。 为未来 AI 产业的规模化发展打下底层基础,这才是算力互联最核心的价值,也是很多人没意识到的国家布局的深意。
back to top