我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
百万token上下文的皇帝新衣
视频
音频
原始脚本
百万 token 上下文的皇帝新衣,从 Claude Code 三层记忆看穿闭源长文本的工程真相。 当 Cloud GPT 4、Gemini 纷纷宣称支持100万、200万甚至无限 token 上下文时,外界一片惊叹,AI 终于拥有了过目不忘的能力。 但从 Cloud Code 泄露的三层记忆架构与底层硬件成本逻辑看,真相可能恰恰相反。 所谓原生超长上下文,大多是精密工程包装的记忆魔术。 模型没把整本书背下来,只是配了个高效秘书,随时翻书找答案。 一,先算一笔硬账。 原生百万上下文,厂商根本扛不住大模型的长上下文,不是想支持就支持的功能,而是显存与成本的绞肉机。 1KV Cash,长上下文的显存黑洞。 Transformer 每处理一个 token 都要缓存所有历史的 key value 向量,KV cache 占用随上下文长度线性暴涨。 公式,KV 大小等于二乘层数乘隐层维度乘上下文长度乘精度。 字节,7B模型,FP16,32K16GB显存,100128K64GB 显存。 刚好占满一张 A 180GB,EM 乘乘500GB 加乘乘,显存70B 模型,128K42GB 加 kv 加140GB,权重约等于200GB,以及用户 EM 上下文,3.3TB 加显存。 二、商业死结,独占服务器,无法并发,一个 EM 上下文请求独占1~8张 H100,其他用户完全无法排队。 厂商若真原生全量加载,成本是普通对话的100~1000倍,注定赔本赚吆喝。 结论,没有任何闭源厂商会长期大规模真原生跑百万 token 上下文,成本与并发不允许。 二,Claude Code 三层记忆,官方自曝的作弊方案,Claude Code 没有隐瞒。 它的三层记忆加怀疑主义记忆,就是一套星星轻量索引,加外部存档,加按需检索星星的标准工程方案。 第一层短期工作记忆,真上下文,容量约200K token,官方披露,内容,当前对话,最近代码,及时推理作用,真正塞进模型上下文,负责当下思考,特点,用完即丢,不持久化第二层。 轻量索引记忆核心外挂,载体 Memory 点 MD,每行约150字符。 内容只存大纲、路径、摘要、关键结论例,src 斜杠 u t i l s 点 t s,数据校验函数,含 validate mail、validate phone,不存一行原始代码,不存完整段落作用。 当导航地图。 指引模型去哪查?第三层,持久化原始记忆,外部仓库载体,Memor 下的分文件归档内容,全量原始代码,完整对话,历史细节,作用,不尽模型上下文,仅备严守工具,定向读取核心运转。 怀疑主义记忆,防幻觉,加藏底牌。 一、用户提问模型,看 memory,MD 索引。 二、需细节悄悄调用文件工具,只读相关片段,几百几千 token。 三。 回答时把索引提示加查到的片段拼在一起。 四、对外表现,仿佛全程记住了百万 token 一句话总结,Claude Code 不是背下百万行代码,而是记住目录加会查文件。 人类的好记性不如烂笔头,被 AI 完美复刻。 3,闭源厂商的统一套路,RAG 包装成原生长上下文,不止 Cloud、GPT 4、Gemini 等闭源模型,超长上下文基本都是同一套工程逻辑,只是包装话术不同。 一、文件上传不等于全量位模型,用户传10 MB 文档,不进 Transformer 窗口,后台流程。 一、解析文本切块,Chunk,1K~2K token。 二、向量化存入向量库,RAG 标准步骤。 三 生成极简摘要、索引、几千 token 仅这个近上下文。 二、问答全程偷偷检索,假装全记,你问细节模型,把问题转向量,检索 top 3~5相关块,只把这几 K 相关片段喂给模型生成回答。 用户感知,他居然记得我几小时前说的话。 整本书的细节三,话术包装。 把 rag 吹成原生能力,不说我用了 rag 检索,只说支持 EM token 上下文,无限文件,全文档理解,开源可测,上下文多大就是多大,骗不了人,闭源黑盒。 你永远不知道他是真记住还是偷偷查。 四,一个细节对照,谁老实,谁可能在包装。 豆包字节,明确限制单文件小于等于200K,大概率真把文本塞进上下文。 老师成本可控不?吹牛,Gemini GPT 4。 宣称几 MB 无限文件,极高概率,文件切块向量库极简索引,按需检索,你问啥他查啥。 根本没全读,图片不限制,因为图片经 VT 压缩为固定长度特征,几百几千 Token,再长也不膨胀。 当然可以不限五,为什么说这不是造假?而是正确工程一,用户要的是效果,不是原理,能精准答长文档,不掉链子,体验等于珍藏上下文。 二,成本与体验的最优解,原生全量,慢、贵,无法并发,三层记忆,RAG 贵、快。 省、高并发、精度可控三。 符合智能本质,人类也不背全书,记目录加会翻书,AI 的进化方向是会查,不是硬记六。 结论,超长上下文的真相与我们的思考完全吻合一,Claude Code 的三层记忆不是模型能力 的炫耀,而是工程智慧的坦白。 他承认模型不需要硬背百万 Token,会用外置烂笔头更聪明。 二,闭源厂商的百万 Token 上下文大多是 RAG 加分层记忆的包装。 不是模型变强到能背全书,而是后台系统变精密,会精准查书。 三,我们之前的判断完全正确。 五,关记忆体系等于克洛德3层记忆的抽象。 版、星索引记忆、加眼手工具检索、加大脑、轻量上下文。 好记忆不如烂笔头,AI 同样适用,最后一句话送给所有被百万上下文震撼的人。 你看到的 AI 过目不忘,多半是它背后有个看不见的秘书,在你看不见的时候默默翻着你看不见的笔记。
修正脚本
百万 token 上下文的皇帝新衣,从 Claude Code 三层记忆看穿闭源长文本的工程真相。 当 Claude、GPT 4、Gemini 纷纷宣称支持100万、200万甚至无限 token 上下文时,外界一片惊叹,AI 终于拥有了过目不忘的能力。 但从 Claude Code 泄露的三层记忆架构与底层硬件成本逻辑看,真相可能恰恰相反。 所谓原生超长上下文,大多是精密工程包装的记忆魔术。 模型没把整本书背下来,只是配了个高效秘书,随时翻书找答案。 一,先算一笔硬账。 原生百万上下文,厂商根本扛不住大模型的长上下文,不是想支持就支持的功能,而是显存与成本的绞肉机。 1. KV Cache,长上下文的显存黑洞。 Transformer 每处理一个 token 都要缓存所有历史的 key value 向量,KV cache 占用随上下文长度线性暴涨。 公式:KV 大小等于二乘层数乘隐层维度乘上下文长度乘精度。 比如,7B模型,FP16,32K占16GB显存,100万128K占64GB 显存。 刚好占满一张A100 80GB,1M的话,70B 模型,128K需要42GB KV,加140GB权重,总共约200GB,加上用户1M上下文,需要3.3TB 显存。 2. 商业死结,独占服务器,无法并发,一个 1M 上下文请求独占1~8张 H100,其他用户完全无法排队。 厂商若真原生全量加载,成本是普通对话的100~1000倍,注定赔本赚吆喝。 结论,没有任何闭源厂商会长期大规模真原生跑百万 token 上下文,成本与并发不允许。 二,Claude Code 三层记忆,官方自曝的作弊方案,Claude Code 没有隐瞒。 它的三层记忆加怀疑主义记忆,就是一套新型轻量索引,加外部存档,加按需检索的标准工程方案。 第一层:短期工作记忆,真上下文,容量约200K token,官方披露,内容为当前对话、最近代码,即时推理,真正塞进模型上下文,负责当下思考,特点:用完即丢,不持久化。第二层: 轻量索引记忆,核心外挂,载体 Memory.md,每行约150字符。 内容只存大纲、路径、摘要、关键结论,例:src/utils.ts,数据校验函数,含 validate mail、validate phone,不存一行原始代码,不存完整段落。作用: 当导航地图。 指引模型去哪查。第三层,持久化原始记忆,外部仓库载体,Memory下的分文件归档,内容:全量原始代码,完整对话,历史细节,作用:不进模型上下文,仅按需调用工具,定向读取。核心运转: 怀疑主义记忆,防幻觉,加藏底牌。 一、用户提问,模型先看 memory.md 索引。 二、需细节就悄悄调用文件工具,只读相关片段,几百几千 token。 三、 回答时把索引提示加查到的片段拼在一起。 四、对外表现,仿佛全程记住了百万 token。一句话总结,Claude Code 不是背下百万行代码,而是记住目录加会查文件。 人类的好记性不如烂笔头,被 AI 完美复刻。 三,闭源厂商的统一套路,RAG 包装成原生长上下文,不止 Claude、GPT 4、Gemini 等闭源模型,超长上下文基本都是同一套工程逻辑,只是包装话术不同。 一、文件上传不等于全量进模型,用户传10 MB 文档,不进 Transformer 窗口,后台流程: 1、解析文本切块,Chunk,1K~2K token。 2、向量化存入向量库,RAG 标准步骤。 3、生成极简摘要、索引,仅几千 token 进入近上下文。 二、问答全程偷偷检索,假装全记:你问细节,模型把问题转向量,检索 top 3~5相关块,只把这几 K 相关片段喂给模型生成回答。 用户感知:他居然记得我几小时前说的话,记得整本书的细节。三、话术包装: 把 RAG 吹成原生能力,不说我用了 RAG 检索,只说支持 1M token 上下文,无限文件,全文档理解,开源可测,上下文多大就是多大,骗不了人,闭源黑盒。 你永远不知道他是真记住还是偷偷查。 四,一个细节对照,谁老实,谁可能在包装。 豆包(字节),明确限制单文件小于等于200K,大概率真把文本塞进上下文,老实,成本可控,不吹牛;Gemini、GPT 4: 宣称几 MB 无限文件,极高概率,文件切块向量库极简索引,按需检索,你问啥他查啥。 根本没全读,图片不限制,因为图片经 VAE 压缩为固定长度特征,几百几千 Token,再长也不膨胀。 当然可以不限。五,为什么说这不是造假?而是正确工程思路:一,用户要的是效果,不是原理,能精准答长文档,不掉链子,体验等于原生上下文。 二,成本与体验的最优解:原生全量,慢、贵,无法并发;三层记忆RAG,便宜、快、省、高并发、精度可控。三、 符合智能本质,人类也不背全书,记目录加会翻书,AI 的进化方向是会查,不是硬记。六,结论,超长上下文的真相与我们的思考完全吻合:一,Claude Code 的三层记忆不是模型能力的炫耀,而是工程智慧的坦白。 他承认模型不需要硬背百万 Token,会用外置烂笔头更聪明。 二,闭源厂商的百万 Token 上下文大多是 RAG 加分层记忆的包装。 不是模型变强到能背全书,而是后台系统变精密,会精准查书。 三,我们之前的判断完全正确。 我们的记忆体系就是Claude三层记忆的抽象:轻量索引记忆、加工具检索、加大脑轻量上下文。 好记忆不如烂笔头,AI 同样适用,最后一句话送给所有被百万上下文震撼的人。 你看到的 AI 过目不忘,多半是它背后有个看不见的秘书,在你看不见的时候默默翻着你看不见的笔记。
back to top