我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
视觉token的秘密AI巨头的算力谎言2
视频
音频
原始脚本
第三章,发布会上的王炸。 2027年11月15日,Deepseek 的效率革命发布会座无虚席。 李明坐在观众席最后一排,手里攥着灰鸟给的文档,手心全是汗。 CEO 走上台,身后的大屏幕立刻分成两半,左边是谷歌云的 TPU 集群,1000张显卡嗡嗡作响,生成基于视觉 Token 的低算力 AI 架构,这句话用了吧。 2秒,右边是一台普通的笔记本电脑,屏幕上显示着 RTX4090的标识。 同样的句子,生成时间定格在0.9秒。 这不是魔术,CO 的声音透过麦克风传遍全场。 我们的双 OCR 加视觉 token transformer 架构,核心有三个技术点。 第一,用 Deepseek OCR 把文字转成10倍压缩的视觉 token,一个 token 对应10个文字,保留97%语义精度。 第二,视觉 Transformer 复用传统自回归逻辑,但去掉了字典,输入是256维连续向量,输出也是256维连续向量,不用计算5万 token 的 Softmax,算力直接省掉80%。 第三,输出端用 MSE 损失对比生成 token 与目标 token 的差异,避开 OCR 识别误差,训练更稳定。 大屏幕上开始播放技术细节动画,16×16像素的 patch 如何通过注意力池化融合,相对位置编码如何嵌入向量,超分模块如何增强图像分辨率。 李明注意到,动画里甚至展示了生僻字特征增强的过程。 字的四个火字旁被标成红色,视觉 token 的向量波动被放大,清晰的显示出模型是如何学习这个字的独特结构。 最关键的是,CEO 举起手中的笔记本电脑,这台4000美元的设备能跑通原本需要100万美元集群才能运行的70B参数模型。 现在我们宣布两个决定。 第一,视觉 Token 的核心代码全部开源。 第二,推出个人 AI 终端,售价2999美元,支持离线运行所有主流大模型。 发布会现场瞬间沸腾,而李明的手机里,财经 APP 推送了一条快讯,硅谷七姐妹股价集体暴跌,英伟达 H20显卡二手价半小时腰斩。 他抬头看向舞台,CEO 正对着镜头微笑,那笑容里藏着打破垄断的决心。 第四章,泡沫破裂后的余波,发布会后一周,李明收到了 Deepseek 的入职邀请,职位是视觉 Token 架构优化工程师。 他的第一个任务是解决用户反馈的长文本排版错位问题。 有用户生成200字的文章时,第150字之后的文字出现了行重叠。 这是位置编码累计误差。 李明想起飞鸟说的分段编码,立刻在代码里加入逻辑,每100字分段,段间用绝对段号编码。 测试后,200字的文章排版整齐,连标点符号都没有错位。 与此同时,开源社区里涌现出上百个衍生项目。 有人用树莓派跑通了迷你模型,有人把视觉 Token 架构装进了智能手机。 甚至有车企联系 Deepseek,想把模型嵌入车载系统,实现离线语音转文字。 只有一个疑问还悬在李明心头。 这天晚上,他翻出灰鸟给的文档,在最后一页发现了一行被划掉的字,备用方案,推出视觉 token 安全漏洞的虚假报告。 他立刻给灰鸟发消息,却收到了自动回复,我也离开 Meta,加入 Deepseek。 的低算力 AI 联盟。 那些巨头不会善罢甘休,但我们有技术、有用户、更有打破垄断的勇气。 李明看向窗外,北京的夜色里写字楼的灯光依旧明亮。 他打开代码编辑器,开始编写多语言视觉 Token 适配的文档。 日语的平假名、阿拉伯语的连笔、俄语的西里尔字母,都需要针对性调整 patch 大小和特征提取逻辑。 他知道,AI 行业的算力谎言时代已经结束,而一个由技术驱动而非资本垄断的新秩序才刚刚开始。
修正脚本
第三章,发布会上的王炸。 2027年11月15日,Deepseek 的效率革命发布会座无虚席。 李明坐在观众席最后一排,手里攥着灰鸟给的文档,手心全是汗。 CEO 走上台,身后的大屏幕立刻分成两半,左边是谷歌云的 TPU 集群,1000张显卡嗡嗡作响,生成基于视觉 Token 的低算力 AI 架构,用时2秒。 右边是一台普通的笔记本电脑,屏幕上显示着 RTX4090的标识。 同样的句子,生成时间定格在0.9秒。 这不是魔术,CEO 的声音透过麦克风传遍全场。 我们的双 OCR 加视觉 token transformer 架构,核心有三个技术点。 第一,用 Deepseek OCR 把文字转成10倍压缩的视觉 token,一个 token 对应10个文字,保留97%语义精度。 第二,视觉 Transformer 复用传统自回归逻辑,但去掉了字典,输入是256维连续向量,输出也是256维连续向量,不用计算5万 token 的 Softmax,算力直接省掉80%。 第三,输出端用 MSE 损失对比生成 token 与目标 token 的差异,避开 OCR 识别误差,训练更稳定。 大屏幕上开始播放技术细节动画,16×16像素的 patch 如何通过注意力池化融合,相对位置编码如何嵌入向量,超分模块如何增强图像分辨率。 李明注意到,动画里甚至展示了生僻字特征增强的过程。 燚字的四个火被标成红色,视觉 token 的向量波动被放大,清晰地显示出模型是如何学习这个字的独特结构。 最关键的是,CEO 举起手中的笔记本电脑,这台4000美元的设备能跑通原本需要100万美元集群才能运行的70B参数模型。 现在我们宣布两个决定。 第一,视觉 Token 的核心代码全部开源。 第二,推出个人 AI 终端,售价2999美元,支持离线运行所有主流大模型。 发布会现场瞬间沸腾,而李明的手机里,财经 APP 推送了一条快讯,硅谷七姐妹股价集体暴跌,英伟达 H20显卡二手价半小时腰斩。 他抬头看向舞台,CEO 正对着镜头微笑,那笑容里藏着打破垄断的决心。 第四章,泡沫破裂后的余波,发布会后一周,李明收到了 Deepseek 的入职邀请,职位是视觉 Token 架构优化工程师。 他的第一个任务是解决用户反馈的长文本排版错位问题。 有用户生成200字的文章时,第150字之后的文字出现了行重叠。 这是位置编码累计误差。 李明想起灰鸟说的分段编码,立刻在代码里加入逻辑,每100字分段,段间用绝对段号编码。 测试后,200字的文章排版整齐,连标点符号都没有错位。 与此同时,开源社区里涌现出上百个衍生项目。 有人用树莓派跑通了迷你模型,有人把视觉 Token 架构装进了智能手机。 甚至有车企联系 Deepseek,想把模型嵌入车载系统,实现离线语音转文字。 只有一个疑问还悬在李明心头。 这天晚上,他翻出灰鸟给的文档,在最后一页发现了一行被划掉的字,备用方案,推出视觉 token 安全漏洞的虚假报告。 他立刻给灰鸟发消息,却收到了自动回复,我也离开 Meta,加入 Deepseek 主导的低算力 AI 联盟。 那些巨头不会善罢甘休,但我们有技术、有用户、更有打破垄断的勇气。 李明看向窗外,北京的夜色里写字楼的灯光依旧明亮。 他打开代码编辑器,开始编写多语言视觉 Token 适配的文档。 日语的平假名、阿拉伯语的连笔、俄语的西里尔字母,都需要针对性调整 patch 大小和特征提取逻辑。 他知道,AI 行业的算力谎言时代已经结束,而一个由技术驱动而非资本垄断的新秩序才刚刚开始。
back to top