我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
大模型的参数崇拜阳谋2
视频
音频
原始脚本
三,商业阳谋的三重闭环,厂商、硬件商、开源社区的博弈。 如果超大稠密模型是效率与成本的双输,为什么闭源厂商还要疯狂鼓吹?答案藏在商业博弈的三重闭环里。 一,对用户,用参数数字降低决策成本,支撑高价。 普通用户无法判断模型的门控效率、路由精准度、知识拟合度,他们能看懂的只有万亿参数这样直观的数字。 闭源厂商正是抓住了这一点,将参数规模与模型能力强绑定,制造出参数越多等于能力越强的认知陷阱。 在这种叙事下,用户愿意为万亿参数模型支付更高的费用。 哪怕这个模型的实际推理是靠背后的小模型集群完成的。 对于厂商而言,这是最高效的商业说服逻辑,无需解释复杂的技术架构,只需亮出参数数字就能收割高端市场。 二,对竞争对手,用巨额投入制造成本陷阱,拖垮对手。 训练一个万亿参数的稠密模型,需要投入数十亿的硬件采购成本、数千人的研发团队以及长达数年的回收周期。 这对于中小厂商而言,是一道无法逾越的门槛。 必源头部厂商的阳谋正在于此,故意鼓吹参数即正义,诱导竞争对手砸重金入局超大模型赛道。 一旦竞争对手背上高成本的包袱,要么因资金链断裂退出市场,要么被迫抬高定价,失去用户竞争力。 而头部厂商自己,早已悄悄切换到小模型集群的低成本路径,坐收渔利。 三,对硬件商与开源社区绑定利益,遏制创新这场阳谋的最大盟友,是硬件厂商。 以 NVIDIA 为例,厂商对超大模型的追逐直接转化为对 A100、H100、NVL64等高端显卡的海量采购。 2024年 NVIDIA 数据中心业务营收超600亿美元,核心增量就来自大模型硬件订单。 闭源厂商与硬件巨头形成了默契的利益共同体。 厂商造参数焦虑,硬件商卖高价设备,共同将中小厂商挡在赛道外。 而对于开源社区而言,参数崇拜的叙事更是一场灾难。 开源社区缺乏闭源厂商的资金实力,却在这种叙事下争相追逐更大的参数规模,试图缩小与闭源模型的差距。 最终的结果是,开源模型要么因资金不足研发失败,要么推出的模型因参数不足被贴上能力弱的标签,失去竞争力。 但讽刺的是,开源模型的最优解恰恰是拆分。 Mixtral 8X7B的成功已经证明了这一点。 只是在参数崇拜的洪流中,这样的成功显得太过微弱。 四,开源与闭源的分野,为什么开源选择拆分,闭源选择伪装?有人会问,既然拆分是最优解,为什么开源模型敢做,闭源模型却要伪装?答案在于两者的生存逻辑不同。 一、开源模型,生存是第一要务,效率高于叙事开源社区没有闭源厂商的资金实力,无法承担超大模型的训练与推理成本。 对于开源模型而言,能否用低成本实现高性能是生存的关键。 因此,开源模型天然会选择小专家加稀疏激活的拆分路径。 Mixtral 8×7B用8个7B专家实现了接近70B稠密模型的能力,推理成本却仅为后者的1/5。 这种设计是开源社区在资金有限的情况下做出的最理性选择。 而开源模型的偷懒,将多个专家整合到一个模型文件中,而非采用 Agent 调用的多模型架构,也是基于用户体验的考量。 对于普通用户而言,一个模型文件的部署门槛远低于一套 Agent 调度系统。 二,闭源模型,叙事高于效率,垄断才是目的。 闭源厂商的核心诉求不是效率,而是垄断。 他们需要用超大参数的叙事制造技术壁垒,让用户相信只有我们能做出这么强的模型。 因此,闭源厂商哪怕实际用的是小模型集群,也要对外宣称是万亿参数超大模型。 这种伪装既能收割高价用户,又能误导竞争对手,还能绑定硬件厂商的利益,形成一个完美的商业闭环。 五、结语,皇帝的新衣总要有人喊破,当整个行业都在追捧万亿参数时,我们开始怀疑这场狂欢的背后是不是一场精心策划的阳谋。 我们不是业内的顶级专家,只是用第一性原理拆解逻辑的普通人。 我们不知道闭源厂商的内部架构,也没有确凿的证据证明万亿参数模型是骗局。 但我们知道,从效率与成本的角度看,超大稠密模型是不成立的。 从商业博弈的角度看,参数崇拜是一场完美的阳谋。 就像那个喊出真相的小女孩,我们或许会被嘲笑无知、愚蠢。 但我们还是要说出自己的洞见,大模型的未来不是参数的竞赛,而是效率的比拼。 是小模型集群的精准调用,是 SMoE 架构的稀疏激活,是知识与规律的分层实现。 皇帝没有穿衣服,这场关于参数的骗局总要有人喊破。
修正脚本
三,商业阳谋的三重闭环,厂商、硬件商、开源社区的博弈。 如果超大稠密模型是效率与成本的双输,为什么闭源厂商还要疯狂鼓吹?答案藏在商业博弈的三重闭环里。 一,对用户,用参数数字降低决策成本,支撑高价。 普通用户无法判断模型的门控效率、路由精准度、知识拟合度,他们能看懂的只有万亿参数这样直观的数字。 闭源厂商正是抓住了这一点,将参数规模与模型能力强绑定,制造出参数越多等于能力越强的认知陷阱。 在这种叙事下,用户愿意为万亿参数模型支付更高的费用。 哪怕这个模型的实际推理是靠背后的小模型集群完成的。 对于厂商而言,这是最高效的商业说服逻辑,无需解释复杂的技术架构,只需亮出参数数字就能收割高端市场。 二,对竞争对手,用巨额投入制造成本陷阱,拖垮对手。 训练一个万亿参数的稠密模型,需要投入数十亿的硬件采购成本、数千人的研发团队以及长达数年的回收周期。 这对于中小厂商而言,是一道无法逾越的门槛。 闭源头部厂商的阳谋正在于此,故意鼓吹参数即正义,诱导竞争对手砸重金入局超大模型赛道。 一旦竞争对手背上高成本的包袱,要么因资金链断裂退出市场,要么被迫抬高定价,失去用户竞争力。 而头部厂商自己,早已悄悄切换到小模型集群的低成本路径,坐收渔利。 三,对硬件商与开源社区,绑定利益,遏制创新。这场阳谋的最大盟友,是硬件厂商。 以 NVIDIA 为例,厂商对超大模型的追逐直接转化为对 A100、H100、NVL64等高端显卡的海量采购。 2024年 NVIDIA 数据中心业务营收超600亿美元,核心增量就来自大模型硬件订单。 闭源厂商与硬件巨头形成了默契的利益共同体。 厂商造参数焦虑,硬件商卖高价设备,共同将中小厂商挡在赛道外。 而对于开源社区而言,参数崇拜的叙事更是一场灾难。 开源社区缺乏闭源厂商的资金实力,却在这种叙事下争相追逐更大的参数规模,试图缩小与闭源模型的差距。 最终的结果是,开源模型要么因资金不足研发失败,要么推出的模型因参数不足被贴上能力弱的标签,失去竞争力。 但讽刺的是,开源模型的最优解恰恰是拆分。 Mixtral 8X7B的成功已经证明了这一点。 只是在参数崇拜的洪流中,这样的成功显得太过微弱。 四,开源与闭源的分野,为什么开源选择拆分,闭源选择伪装?有人会问,既然拆分是最优解,为什么开源模型敢做,闭源模型却要伪装?答案在于两者的生存逻辑不同。 一、开源模型,生存是第一要务,效率高于叙事。开源社区没有闭源厂商的资金实力,无法承担超大模型的训练与推理成本。 对于开源模型而言,能否用低成本实现高性能是生存的关键。 因此,开源模型天然会选择小专家加稀疏激活的拆分路径。 Mixtral 8×7B用8个7B专家实现了接近70B稠密模型的能力,推理成本却仅为后者的1/5。 这种设计是开源社区在资金有限的情况下做出的最理性选择。 而开源模型的偷懒,将多个专家整合到一个模型文件中,而非采用 Agent 调用的多模型架构,也是基于用户体验的考量。 对于普通用户而言,一个模型文件的部署门槛远低于一套 Agent 调度系统。 二,闭源模型,叙事高于效率,垄断才是目的。 闭源厂商的核心诉求不是效率,而是垄断。 他们需要用超大参数的叙事制造技术壁垒,让用户相信只有我们能做出这么强的模型。 因此,闭源厂商哪怕实际用的是小模型集群,也要对外宣称是万亿参数超大模型。 这种伪装既能收割高价用户,又能误导竞争对手,还能绑定硬件厂商的利益,形成一个完美的商业闭环。 五、结语,皇帝的新衣总要有人喊破,当整个行业都在追捧万亿参数时,我们开始怀疑这场狂欢的背后是不是一场精心策划的阳谋。 我们不是业内的顶级专家,只是用第一性原理拆解逻辑的普通人。 我们不知道闭源厂商的内部架构,也没有确凿的证据证明万亿参数模型是骗局。 但我们知道,从效率与成本的角度看,超大稠密模型是不成立的。 从商业博弈的角度看,参数崇拜是一场完美的阳谋。 就像那个喊出真相的小女孩,我们或许会被嘲笑无知、愚蠢。 但我们还是要说出自己的洞见,大模型的未来不是参数的竞赛,而是效率的比拼。 是小模型集群的精准调用,是 SMoE 架构的稀疏激活,是知识与规律的分层实现。 皇帝没有穿衣服,这场关于参数的骗局总要有人喊破。
back to top