我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
从大概念模型到视觉token我们如何给transformer减负
视频
音频
原始脚本
从大概念模型到视觉 token,我们如何给 Transformer 减负?Profa Levittar 草服之风,静云乱剑天津,2025年10月24日4:57。 最近,Deepseek OCR 的技术思路让我豁然开朗。 他用一种巧妙的方式绕开了一个困扰业界许久的难题,如何让模型的输入单元承载更密集的语义信息。 我们都知道传统 Transformer 模型的输入是一个个独立的文字 Token,这就像用小勺子给大卡车装货,勺子太小,Token 信息稀疏,卡车强大的注意力机制空转严重,效率低下。 Meta 之前提出的大概念模型 LCM 思路直指问题核心。 为什么不用概念?比如高兴的南辕北辙作为输入单元,这样每个单元的信息密度就高多了。 想法虽好,但落地极难,概念难定义,概念边界模糊,不同语言场景下千差万别,实现成本高,需要先训练一个能理解语义的超级 这本身就相当于再造一个大模型,架构改动大,从输入到输出都要以概念为单位,整个 Transformer 架构都需重构。 因此, LCM 虽理念先进,却应者寥寥,而 Deepseek OCR 的视觉 token 思路堪称工程上的神来之笔。 它不直接定义概念,而是用图像块作为 token 。 一片文字在视觉上挨在一起,就被打包成一个视觉 token 。 这个过程天然的将多个文字 token 组合,形成了类似概念的信息密集单元。 它不依赖语言理解,实现简单,却完美达到了提升输入信息密度的目的。 这相当于把原来的小勺子换成了大铲子,同样是装货,但效率天差地别。 Deepseek OCR 没有颠覆 Transformer 架构,却在嵌入层这个关键节点上为我们打开了一扇窗。 他证明了,在不改变底层逻辑的前提下,通过更换输入单元的形态,就能让大马拉小车的局面得到根本性改善。 这或许就是未来模型效率革命的关键方向。
修正脚本
从大概念模型到视觉 token,我们如何给 Transformer 减负?Profa Levittar 干货分享,好文上线今天,2025年10月24日4:57。 最近,Deepseek OCR 的技术思路让我豁然开朗。 它用一种巧妙的方式绕开了一个困扰业界许久的难题,如何让模型的输入单元承载更密集的语义信息。 我们都知道传统 Transformer 模型的输入是一个个独立的文字 Token,这就像用小勺子给大卡车装货,勺子太小,Token 信息稀疏,卡车强大的注意力机制空转严重,效率低下。 Meta 之前提出的大概念模型 LCM 思路直指问题核心。 为什么不用概念?比如高兴、南辕北辙作为输入单元,这样每个单元的信息密度就高多了。 想法虽好,但落地极难,概念难定义,概念边界模糊,不同语言场景下千差万别,实现成本高,需要先训练一个能理解语义的超级模型,这本身就相当于再造一个大模型,架构改动大,从输入到输出都要以概念为单位,整个 Transformer 架构都需重构。 因此, LCM 虽理念先进,却应者寥寥,而 Deepseek OCR 的视觉 token 思路堪称工程上的神来之笔。 它不直接定义概念,而是用图像块作为 token 。 一片文字在视觉上挨在一起,就被打包成一个视觉 token 。 这个过程天然地将多个文字 token 组合,形成了类似概念的信息密集单元。 它不依赖语言理解,实现简单,却完美达到了提升输入信息密度的目的。 这相当于把原来的小勺子换成了大铲子,同样是装货,但效率天差地别。 Deepseek OCR 没有颠覆 Transformer 架构,却在嵌入层这个关键节点上为我们打开了一扇窗。 它证明了,在不改变底层逻辑的前提下,通过更换输入单元的形态,就能让大马拉小车的局面得到根本性改善。 这或许就是未来模型效率革命的关键方向。
back to top