我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
视觉token的秘密AI巨头的算力谎言1
视频
音频
原始脚本
视觉 token 的秘密,AI 巨头的算力谎言第一章,乱码里的异常信号。 李明的手指在键盘上敲到发酸时,屏幕上的生成结果依旧是一团乱码。 不是文字乱码,是图像乱码。 他搭建的双 OCR 加视觉 token Transformer 原型已经卡了三天。 按照 Deepseek OCR 白皮书里的参数,16×16像素的基础 patch,768为特征向量,注意力池化融合10个 patch 生成256维视觉 token。 每一步都严丝合缝。 可当视觉 Transformer 输出向量,经 Deepseek OCR 还原层转成图像时,本该是今天天气很好的文字,却变成了笔画扭曲的色块,连 OCR 都识别成了天气好。 问题出在哪?李明揉了揉眼睛,把第8个日志拉到最下面。 LOSS 值一直在0.8以上居高不下,比正常范围高了3倍。 他想起 Deepseek OCR 文档里提过的视觉 token 位置编码,难道是位置信息丢了?他重新检查代码,注意力池化模块里相对位置编码的计算逻辑没错。 第 N 个 patch 与第一个 patch 的距离用128维向量表示,和768维 patch 特征拼接后,通过两层 F F N 压缩到256维。 那为什么还原后文字顺序会乱?直到凌晨2点,他无意间点开输入端 OCR 的图像缓存,里面的文字是微软雅黑16像素。 而输出端目标图像的缓存,因为调用的是另一个 OCR 接口,默认用了宋体14像素。 两个图像的基础 patch 像素分布完全不同。 微软雅黑的天字占1.2个 patch,宋体的天字占0.9个 patch,视觉 token 的特征向量自然无法对齐。 MSE 损失计算时,相当于用苹果的特征去对比橘子的特征,不乱才怪。 原来如此,李明立刻修改代码,把全流程的图像生成规则统一。 字体微软雅黑16像素,文字颜色 RGB 背景色 RGB 分辨率300 DPI。 重新运行后,Loss 值在500步迭代后降到0.2以下。 还原出的图像里,今天天气很好,适合去公园的文字清晰的像打印出来的一样。 他激动的把生成速度截图发朋友圈,RTX 4090跑1000字生成0.9秒。 没几分钟,一条陌生私信弹出来,你在用视觉 token 做文字生成。 立刻删除,别惹麻烦。 李明以为是恶作剧,没当回事。 可第二天早上,他发现自己 的 GitHub 仓库被封禁,云服务器里的原型代码被清空,连本地备份的硬盘都莫名出现坏道,那可是他熬了三个通宵的成果,这不是巧合。 李明盯着屏幕上的坏道提示,突然想起一周前看到的新闻。 谷歌宣布 AGI 需要百万卡级超算集群,Meta 紧接着追加100亿美金采购英伟达 H20显卡。 如果它的原型是对的,一张消费级显卡就能抵得上10张 H20,那这些巨头的千亿投入不就成了笑话?第二章,咖啡馆里的秘密文档,通过开源社区的朋友牵线,李明在三天后见到了灰鸟。 那是个戴黑框眼镜的男人,坐在咖啡馆最角落的位置,面前放着一台没有 logo 的笔记本电脑。 你知道谷歌 DeepMind 在2023年做过什么吗?灰鸟没绕弯子,直接打开一个加密文件夹,里面是一份标注绝密的项目报告,视觉 Token 生成模型 V1.0,算力需求降低8倍的技术验证。 李明快速翻着报告,心脏越跳越快。 报告里的架构和他的原型几乎一模一样,甚至连视觉 token 的维度256维,Patch 大小16×16像素都分毫不差。 不同的是谷歌的模型用了 TPU 集群训练。 能支持多语言生成,还解决了长文本位置编码漂移的问题。 他们把超过100字的文本按100字分段,段内用相对位置编码,段间用绝对段号编码。 第一段标0,第二段标1,彻底避免了行重叠。 既然技术早就有了,为什么不公开?李明抬头问。 灰鸟苦笑一声,点开另一份文档,算力叙事保护协议,签署方是硅谷七姐妹的 CEO。 协议里写的清清楚楚,所有成员需封存低算力技术,联合维护更大算力等于更强 AI 的行业叙事。 对开源社区的相关研究采取收购、威胁、抹黑三原则。 2023年谷歌刚测出8倍算力降低时,英伟达就慌了。 灰鸟压低声音,当时英伟达已经和七姐妹签了5000亿美金的显卡报销协议,要是技术公开,订单会全黄。 更要命的是华尔街,七姐妹的股价里,算力资产占比超40%,一旦算力需求骤降,估值会直接腰斩。 李明想起自己原型里的生僻字问题,他曾尝试生成字,结果还原图像里变成了盐。 灰鸟似乎看穿了他的心思,补充道,谷歌的模型里有个生僻字专项数据集,收录了5000加生僻字的标准化图像。 还加了特征增强损失,用 CLIP 计算生成视觉 token ,与目标 token 的语义相似度,强制模型学那些多笔画结构。 那 Deepseek 为什么敢发布 OCR?技术,李明问。 因为他们不在七姐妹的控制圈里。 灰鸟调出 Deepseek 的融资记录,他们的投资方是国内的制造业资本,目标是把 AI 装到工厂的边缘设备里,不需要依赖云端算力。 那个10倍压缩的 OCR 技术,其实是在试探巨头的底线,就像在说皇帝没穿衣服。 临走前,灰鸟把加密文档拷贝给李明,这些东西你看完最好删掉。 但如果你想继续做,记住一个细节。 视觉 token 还原图像后,最好加个 S R E GAN tiny 超分模块,把分辨率提两倍,不然小屏设备上笔画会模糊,OCR 识别精度会掉。
修正脚本
视觉 token 的秘密,AI 巨头的算力谎言第一章,乱码里的异常信号。 李明的手指在键盘上敲到发酸时,屏幕上的生成结果依旧是一团乱码。 不是文字乱码,是图像乱码。 他搭建的双 OCR 加视觉 token Transformer 原型已经卡了三天。 按照 Deepseek OCR 白皮书里的参数,16×16像素的基础 patch,768为特征向量,注意力池化融合10个 patch 生成256维视觉 token。 每一步都严丝合缝。 可当视觉 Transformer 输出向量,经 Deepseek OCR 还原层转成图像时,本该是今天天气很好的文字,却变成了笔画扭曲的色块,连 OCR 都识别成了天气好。 问题出在哪?李明揉了揉眼睛,把第8个日志拉到最下面。 LOSS 值一直在0.8以上居高不下,比正常范围高了3倍。 他想起 Deepseek OCR 文档里提过的视觉 token 位置编码,难道是位置信息丢了?他重新检查代码,注意力池化模块里相对位置编码的计算逻辑没错。 第 N 个 patch 与第一个 patch 的距离用128维向量表示,和768维 patch 特征拼接后,通过两层 F F N 压缩到256维。 那为什么还原后文字顺序会乱?直到凌晨2点,他无意间点开输入端 OCR 的图像缓存,里面的文字是微软雅黑16像素。 而输出端目标图像的缓存,因为调用的是另一个 OCR 接口,默认用了宋体14像素。 两个图像的基础 patch 像素分布完全不同。 微软雅黑的天字占1.2个 patch,宋体的天字占0.9个 patch,视觉 token 的特征向量自然无法对齐。 MSE 损失计算时,相当于用苹果的特征去对比橘子的特征,不乱才怪。 原来如此,李明立刻修改代码,把全流程的图像生成规则统一。 字体微软雅黑16像素,文字颜色 RGB 背景色 RGB 分辨率300 DPI。 重新运行后,Loss 值在500步迭代后降到0.2以下。 还原出的图像里,今天天气很好,适合去公园的文字清晰得像打印出来的一样。 他激动地把生成速度截图发朋友圈,RTX 4090跑1000字生成0.9秒。 没几分钟,一条陌生私信弹出来,你在用视觉 token 做文字生成。 立刻删除,别惹麻烦。 李明以为是恶作剧,没当回事。 可第二天早上,他发现自己的 GitHub 仓库被封禁,云服务器里的原型代码被清空,连本地备份的硬盘都莫名出现坏道,那可是他熬了三个通宵的成果,这不是巧合。 李明盯着屏幕上的坏道提示,突然想起一周前看到的新闻。 谷歌宣布 AGI 需要百万卡级超算集群,Meta 紧接着追加100亿美金采购英伟达 H20显卡。 如果它的原型是对的,一张消费级显卡就能抵得上10张 H20,那这些巨头的千亿投入不就成了笑话?第二章,咖啡馆里的秘密文档,通过开源社区的朋友牵线,李明在三天后见到了灰鸟。 那是个戴黑框眼镜的男人,坐在咖啡馆最角落的位置,面前放着一台没有 logo 的笔记本电脑。 你知道谷歌 DeepMind 在2023年做过什么吗?灰鸟没绕弯子,直接打开一个加密文件夹,里面是一份标注绝密的项目报告,视觉 Token 生成模型 V1.0,算力需求降低8倍的技术验证。 李明快速翻着报告,心脏越跳越快。 报告里的架构和他的原型几乎一模一样,甚至连视觉 token 的维度256维,Patch 大小16×16像素都分毫不差。 不同的是谷歌的模型用了 TPU 集群训练。 能支持多语言生成,还解决了长文本位置编码漂移的问题。 他们把超过100字的文本按100字分段,段内用相对位置编码,段间用绝对段号编码。 第一段标0,第二段标1,彻底避免了行重叠。 既然技术早就有了,为什么不公开?李明抬头问。 灰鸟苦笑一声,点开另一份文档,算力叙事保护协议,签署方是硅谷七姐妹的 CEO。 协议里写的清清楚楚,所有成员需封存低算力技术,联合维护更大算力等于更强 AI 的行业叙事。 对开源社区的相关研究采取收购、威胁、抹黑三原则。 2023年谷歌刚测出8倍算力降低时,英伟达就慌了。 灰鸟压低声音,当时英伟达已经和七姐妹签了5000亿美金的显卡采购协议,要是技术公开,订单会全黄。 更要命的是华尔街,七姐妹的股价里,算力资产占比超40%,一旦算力需求骤降,估值会直接腰斩。 李明想起自己原型里的生僻字问题,他曾尝试生成碱字,结果还原图像里变成了盐。 灰鸟似乎看穿了他的心思,补充道,谷歌的模型里有个生僻字专项数据集,收录了5000多生僻字的标准化图像。 还加了特征增强损失,用 CLIP 计算生成视觉 token ,与目标 token 的语义相似度,强制模型学那些多笔画结构。 那 Deepseek 为什么敢发布 OCR?技术,李明问。 因为他们不在七姐妹的控制圈里。 灰鸟调出 Deepseek 的融资记录,他们的投资方是国内的制造业资本,目标是把 AI 装到工厂的边缘设备里,不需要依赖云端算力。 那个10倍压缩的 OCR 技术,其实是在试探巨头的底线,就像在说皇帝没穿衣服。 临走前,灰鸟把加密文档拷贝给李明,这些东西你看完最好删掉。 但如果你想继续做,记住一个细节。 视觉 token 还原图像后,最好加个 S R E GAN tiny 超分模块,把分辨率提两倍,不然小屏设备上笔画会模糊,OCR 识别精度会掉。
back to top