我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
视觉token夹心架构突破Transformer效率与瓶颈2
视频
音频
原始脚本
三、关键疑问解答,Deepseek OCR 的视觉 token 是如何实现的?一、视觉 token 是否等价于图像 patch,能否直接转图像?不是孤立 patch,是多 patch 加位置信息的融合向量,但可反向还原为图像。 Deepseek OCR 的视觉 token 包含10个基础 patch 的压缩特征加相对位置编码。 开源时先通过解压缩层将256维向量拆分为10个768维的基础 patch 特征,再根据位置编码确定每个 patch 的排列顺序,如从左到右、从上到下。 后通过像素生成器,将每个 patch 特征映射为16×16像素的图像块,拼接后就是完整的文字图像。 整个过程是端到端可逆的,工程上已通过 Deepseek OCR 的开源代码验证,可直接调用其 Token to Image 接口实现还原。 二、视觉 Token 的位 位置信息如何保留?会不会丢失文字排版逻辑?不会丢失。 Deepseek OCR 采用相对位置编码嵌入视觉头肯。 在融合10个基础 patch 特征时,会计算每个 patch 与第一个 patch 的相对距离。 如第二个 patch 距离1,第10个 patch 距离9。 将距离信息编码为128维的位置向量。 与768维的 patch 特征拼接后,再压缩为256维。 这样生成的视觉 token 不仅包含文字的特征,还包含哪个字在前,哪个字在后的排版逻辑。 确保生成的文字图像不会出现文字顺序颠倒的问题。 3,为什么视觉 token 的连续向量不需要字典?因为输出目标变了。 传统文字 Transformer 的输出目标是从字典中选一个最匹配的离散 token ,所以必须计算与所有字典 token 的相似度。 而视觉 token Transformer 的输出,目标是生成一个能还原为文字图像的连续特征向量。 目标不是匹配字典,而是匹配目标图像的视觉特征。 通过计算,生成视觉 token 与目标视觉 token 的向量差异,MSE 损失即可优化。 无需字典参与,这是连续向量相比离散 Token 的本质优势。 四、可行性与业界现状,技术早有铺垫,为何迟迟未落地?一、技术铺垫,从理论到工程验证的完整链路视觉 Token 替代文字字典的思路并非全新构想,而是经过多年技术积累的必然结果。 2019年理论雏形。 谷歌发布 Pixelarena CNN 论文,首次提出用图像像素 token。 替代离散文字 token,验证了连续视觉特征可用于生成任务。 虽未涉及压缩,但奠定了无字典生成的理论基础。 2023年压缩验证,多篇顶会论文,如 Visual Token Compression for Efficient Language Models,证实视觉 token 可实现3~4倍压缩,且语义精度保留90%以上,工程化可行性初步显现。 2024年 Deepseek 的突破,Deepseek OCR 将压缩比提升至10倍,精度保留97%,且开源了压缩还原模块,直接提供了可复用的工程工具。 至此,视觉 Token 架构从理论可行完全走向工程可落地。 二、业界未普及的核心原因,非技术不可行,而是利益与战略的选择。 从技术链路看,2023年就已具备落地条件。 但硅谷七姐妹,谷歌、Meta、微软、亚马逊、英伟达、OpenAI、特斯拉始终未推进。 背后是多重利益绑定的深层逻辑,算力资产的估值绑定。 七姐妹在2023~2024年累计投入超2万亿美金建设超算中心,采购英伟达 H 系列显卡超100万块。 这些资产在财报中被归类为核心 AI 基础设施,估值与算力需求强度直接挂钩。 若视觉 Token 技术公开,算力需求骤降90%,这些资产会瞬间沦为低效资产。 华尔街对七姐妹的估值体系将彻底崩塌。 当前七姐妹股价中,算力资产溢价占比超40%。 显卡订单的商业捆绑,英伟达与七姐妹签订的2023~2026年显卡包销协议,总金额超5000亿美金。 若技术公开,七姐妹会立刻终止订单,英伟达的营收将面临腰斩风险。 作为硅谷科技生态的算力核心,英伟达有足够动力推动七姐妹共同封锁低算力技术。 商业化落地的时间窗口,当前 AI 行业尚未找到可持续的盈利模式。 ChatGPT、Copilot 等产品营收远无法覆盖算力成本。 七姐妹需要通过持续扩大算力投入的叙事,向资本市场证明 AI 仍在高速发展,以争取更多融资时间,研发真正能落地的 AGI 应用。 若此时公开低算力技术,会暴露现有 AI 应用算力冗余的真相,加速 AI 泡沫破裂,断了融资退路。 三,Deepseek 的特殊性,为何只有它敢突破?Deepseek 作为非硅谷系的中国公司,跳出了上述利益绑定。 资本独立,其投资方以国内制造业资本为主,核心诉求是 AI 技术的端侧落地,如工厂边缘设备、个人终端,无需迎合华尔街的算力估值逻辑。 需求驱动,国内市场对低成本本 AI 需求强烈,个人与中小企业难以承担传统大模型的算力 成本,视觉 Token 架构恰好契合这一需求。 无历史包袱,Deepseek 未大规模投入超算中心,不存在算力资产减值的风险,反而能通过技术突破抢占低算力 AI 的市场空白。
修正脚本
三、关键疑问解答,Deepseek OCR 的视觉 token 是如何实现的?一、视觉 token 是否等价于图像 patch,能否直接转图像?不是孤立 patch,是多 patch 加位置信息的融合向量,但可反向还原为图像。 Deepseek OCR 的视觉 token 包含10个基础 patch 的压缩特征加相对位置编码。 开源时先通过解压缩层将256维向量拆分为10个768维的基础 patch 特征,再根据位置编码确定每个 patch 的排列顺序,如从左到右、从上到下。 后通过像素生成器,将每个 patch 特征映射为16×16像素的图像块,拼接后就是完整的文字图像。 整个过程是端到端可逆的,工程上已通过 Deepseek OCR 的开源代码验证,可直接调用其 Token to Image 接口实现还原。 二、视觉 Token 的位置信息如何保留?会不会丢失文字排版逻辑?不会丢失。 Deepseek OCR 采用相对位置编码嵌入视觉Token。 在融合10个基础 patch 特征时,会计算每个 patch 与第一个 patch 的相对距离。 如第二个 patch 距离1,第10个 patch 距离9。 将距离信息编码为128维的位置向量。 与768维的 patch 特征拼接后,再压缩为256维。 这样生成的视觉 token 不仅包含文字的特征,还包含哪个字在前,哪个字在后的排版逻辑。 确保生成的文字图像不会出现文字顺序颠倒的问题。 三、为什么视觉 token 的连续向量不需要字典?因为输出目标变了。 传统文字 Transformer 的输出目标是从字典中选一个最匹配的离散 token ,所以必须计算与所有字典 token 的相似度。 而视觉 token Transformer 的输出,目标是生成一个能还原为文字图像的连续特征向量。 目标不是匹配字典,而是匹配目标图像的视觉特征。 通过计算,生成视觉 token 与目标视觉 token 的向量差异,MSE 损失即可优化。 无需字典参与,这是连续向量相比离散 Token 的本质优势。 四、可行性与业界现状,技术早有铺垫,为何迟迟未落地?一、技术铺垫,从理论到工程验证的完整链路视觉 Token 替代文字字典的思路并非全新构想,而是经过多年技术积累的必然结果。 2019年理论雏形。 谷歌发布 Pixelarena CNN 论文,首次提出用图像像素 token。 替代离散文字 token,验证了连续视觉特征可用于生成任务。 虽未涉及压缩,但奠定了无字典生成的理论基础。 2023年压缩验证,多篇顶会论文,如 Visual Token Compression for Efficient Language Models,证实视觉 token 可实现3~4倍压缩,且语义精度保留90%以上,工程化可行性初步显现。 2024年 Deepseek 的突破,Deepseek OCR 将压缩比提升至10倍,精度保留97%,且开源了压缩还原模块,直接提供了可复用的工程工具。 至此,视觉 Token 架构从理论可行完全走向工程可落地。 二、业界未普及的核心原因,非技术不可行,而是利益与战略的选择。 从技术链路看,2023年就已具备落地条件。 但硅谷七姐妹,谷歌、Meta、微软、亚马逊、英伟达、OpenAI、特斯拉始终未推进。 背后是多重利益绑定的深层逻辑,算力资产的估值绑定。 七姐妹在2023~2024年累计投入超2万亿美金建设超算中心,采购英伟达 H 系列显卡超100万块。 这些资产在财报中被归类为核心 AI 基础设施,估值与算力需求强度直接挂钩。 若视觉 Token 技术公开,算力需求骤降90%,这些资产会瞬间沦为低效资产。 华尔街对七姐妹的估值体系将彻底崩塌。 当前七姐妹股价中,算力资产溢价占比超40%。 显卡订单的商业捆绑,英伟达与七姐妹签订的2023~2026年显卡包销协议,总金额超5000亿美金。 若技术公开,七姐妹会立刻终止订单,英伟达的营收将面临腰斩风险。 作为硅谷科技生态的算力核心,英伟达有足够动力推动七姐妹共同封锁低算力技术。 商业化落地的时间窗口,当前 AI 行业尚未找到可持续的盈利模式。 ChatGPT、Copilot 等产品营收远无法覆盖算力成本。 七姐妹需要通过持续扩大算力投入的叙事,向资本市场证明 AI 仍在高速发展,以争取更多融资时间,研发真正能落地的 AGI 应用。 若此时公开低算力技术,会暴露现有 AI 应用算力冗余的真相,加速 AI 泡沫破裂,断了融资退路。 三、Deepseek 的特殊性,为何只有它敢突破?Deepseek 作为非硅谷系的中国公司,跳出了上述利益绑定。 资本独立,其投资方以国内制造业资本为主,核心诉求是 AI 技术的端侧落地,如工厂边缘设备、个人终端,无需迎合华尔街的算力估值逻辑。 需求驱动,国内市场对低成本 AI 需求强烈,个人与中小企业难以承担传统大模型的算力成本,视觉 Token 架构恰好契合这一需求。 无历史包袱,Deepseek 未大规模投入超算中心,不存在算力资产减值的风险,反而能通过技术突破抢占低算力 AI 的市场空白。
back to top