我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
从文字瓶颈到视觉输入卡帕西设想的完整逻辑链
视频
音频
原始脚本
从文字瓶颈到视觉输入,卡帕西设想的完整逻辑链。 卡帕西大模型输入全视觉化的观点,看似激进,实则是对文字 token 瓶颈的根本性突破。 当我们把文字编码的偶然性、字典的局限性、Transformer 的位置编码优势、语义 token 的中间语言属性与自回归的底层逻辑串联起来,会发现这不是空想。 而是多模态大模型发展的必然方向。 DeepMind CoCa 的突破更是从工程上验证了这条路的可行性。 一,影子,文字 token 的先天缺陷,编码偶然性与关联难题。 我们习以为常的文字 token 本质是人为编码的偶然产物,这恰恰是大模型的隐形瓶颈。 文字的数字编码,如 UTF-8,GB 2312,完全是人为规定的,与语义无关。 比如我的 UTF 8编码是是 0XE。 68891,门的编码是0XE4BBAC,两者在数字层面毫无关联,但在语义上却常组合成我们的高频搭配。 当这些编码映射到 Transformer 的 embedding 空间时,模型需要花费极大精力强行学习编码与语义的关联,比如让我和门的向量靠近,而这种后天学习的效率远低于先天先天自带语义关联的视觉信号。 举个更直观的例子,中文猫和英文 Cat 指向同一语义。 但它们的 UTF 8编码完全不同,模型需要靠海量平行语料才能把两者的向量拉到相近位置。 而猫的图片不管对应哪种语言,视觉特征天生就包含毛茸茸、有尾巴、会喵喵叫的语义关联,模型无需额外学习就能识别,这就是 是视觉输入的先天优势,语义与载体天然绑定,无需跨越编码偶然性的鸿沟。 二、关键支撑,Transformer 的位置编码与图像的天然适配。 Transformer 的另一大成功关键,位置编码恰好与图像的特性完美契合,这为视觉输入提供了技术基础。 Transformer 的自注意力机制需要位置编码来区分 token 的顺序。 比如,他吃苹果和苹果吃他。 而文字的位置编码是人工添加的正弦余弦型号,需要模型额外学习位置与语义的关系。 但图像的位置信息是天生的,每个像素都有固定的空间坐标,如100、200的像素代表图像左上角区域。 这种空间位置本身就包含语义,比如猫的头部在图像上方,身体在中间。 模型处理图像时,无需人工添加位置编码,直接通过像素的空间关系就能理解语义,效率远超文字。 DeepC OCR 的突破正是这一逻辑的工程验证。 它没有像传统 OCR 那样依赖文字模板匹配,而是把文本图像当做带空间语义的视觉信号,通过 Transformer 的位置 指编码捕捉笔画的空间顺序。 比如南字的横竖撇捺位置,再映射到语义向量。 这使得它能压缩模型体积,保留精度的同时缩小参数规模,还能识别生僻字、手写体等不在传统字典里的文本。 本质是用视觉的空间语义。 替代了文字的人工编码,证明了视觉输入的高效性。 三、核心矛盾,字典的上限诅咒,从小众语言到未知符号的困境。 卡帕西之所以主张输入全视觉化,核心是要摆脱字典依赖的枷锁。 字典本质是人为划定的语义边界,存在两大无解问题。 一、字典有上限,语义无边界。 拼音语言,如英文的字典需要收录数十万单词。 小众语言,如撒哈拉 拉不足语言的字符更是难以全覆盖,一旦遇到不在字典里的符号,如生僻字、自定义图标,模型就会输出 ANK,完全无法处理。 二、多语言适配成本高,支持一种新语言就需要重新构建该语言的字典,训练对应的 tokenizer。 相当于给模型重新教一套语言体系,成本随语言数量线性增加,无法实现真正的多语言通用。 而视觉输入天然不存在字典上限,不管是拉丁字母、中文汉字,还是不足符号、自定义图标,在模型眼中都是带语义的视觉信号,无需提前收入到字典。 比如 DeepCocoa 2能识别手写的生僻字,四个火不是因为它在字典里,而是模型通过四个火的空间排列推断出这是一个表意字符,再结合上下文输出语义。 这正是无字典的优势,语义由视觉信号直接决定,而非由人工字典划定。 四、逻辑闭环,语义 token 跨模态的中间语言,破解无字典输出难题。 语义 token 的本质是跨模态通用中间语言,类似 Windows Runtime 的中间语言。 Windows 用这种中间语言兼容 C Visual Basic 等多种高级语言。 语义 token 则用统一载体承载图像、文字、声音的核心语义,脱离具体形是束缚,具体表现为三个层面。 一、生成逻辑,自回归依然成立,对象从文字变成语义。 无字点不影响自回归的底层机制。 模型处理图像时,会按视觉特征语义 token 下一个语义 token 的线性顺序生成。 比如看到人往南走却指向北边的图像,先生成行动的语义 token。 再生成目标的语义 token 最后生成相反的语义 token 形成完整的语义序列。 这个过程中, Softmax 计算的是当前语义向量与语义 token 库的相似度,而非与文字字典的相似度,概率分配逻辑完全通顺。 二、输出灵活,按需映射,不依赖固定字典。 语义 token 的输出无需绑定文字,对内,模型可直接输出语义 token 向量,驱动其他多模态模块,比如给图像生成模块输出行动与目标相反的语义向量,生成对应的场景图。 给语音模块输出开心的语义向量,生成笑声。 对外,若需要人类可读形式,再调用语义语言映射层。 想输出中文,就映射成南辕北辙。 想输出阿拉伯语,就映射成对应的阿拉伯短语。 这个映射层无需重新训练模型,只需用少量语义 token 语言配对数据微调,成本极低。 三、多模态互通,语义是统一语言。 不管是视觉、图像、听觉、声音还是文字,最 最终都会转化为语义 token,在模型内部用算。 比如猫的图片、猫的叫声、中文猫、英文 cat 都会映射到同一个猫的语义 token。 这种语义统一让多模态协作变得简单。 模型看到猫的图片生成猫的语义 token,既能转成文字猫。 也能生成猫的叫声,还能控制机械臂做出摸猫的动作。 这正是卡帕西设想的输入全视觉化的终极价值,用视觉打破语言壁垒,让模型真正理解世界的语义,而非文字的编码。 五、结论,视觉输入不是替代文字,而是 释放语义。 卡帕西的观点并非要消灭文字,而是要让模型摆脱文字编码与字典的束缚,回归语义本身。 文字只是人类交流的工具,不是语义的唯一载体。 当模型能直接从视觉中获取语义,并用语义 token 作为中间语言运算时,它就 能突破小众语言无法覆盖、未知符号无法识别、多模态协作困难的瓶颈,真正实现理解世界而非理解文字。 Deepseek OCR 的工程突破,Transformer 与视觉位置编码的适配,语义 token 的中间语言属性,再加上自回归机制的底层支撑,共同构成了输入全视觉化的完整逻辑链。 这不是空想,而是大模型从文字智能迈向世界智能的必经之路。 未来,当我们画一张草图、拍一张照片,模型就能直接输出对应的语义序列,并按需转成文字、生成图像或执行动作时,我们会发现卡帕西的设想本质是让 AI 用人类感知世界的方式,视觉去理解世界,这才是人工智能的终极形态。
修正脚本
从文字瓶颈到视觉输入,卡帕西设想的完整逻辑链。 卡帕西大模型输入全视觉化的观点,看似激进,实则是对文字 token 瓶颈的根本性突破。 当我们把文字编码的偶然性、字典的局限性、Transformer 的位置编码优势、语义 token 的中间语言属性与自回归的底层逻辑串联起来,会发现这不是空想。 而是多模态大模型发展的必然方向。 DeepMind CoCa 的突破更是从工程上验证了这条路的可行性。 一、引子,文字 token 的先天缺陷,编码偶然性与关联难题。 我们习以为常的文字 token 本质是人为编码的偶然产物,这恰恰是大模型的隐形瓶颈。 文字的数字编码,如 UTF-8,GB 2312,完全是人为规定的,与语义无关。 比如我的UTF-8编码是0xE68891,门的编码是0XE4BBAC,两者在数字层面毫无关联,但在语义上却常组合成我们的高频搭配。 当这些编码映射到 Transformer 的 embedding 空间时,模型需要花费极大精力强行学习编码与语义的关联,比如让我和门的向量靠近,而这种后天学习的效率远低于先天自带语义关联的视觉信号。 举个更直观的例子,中文猫和英文 Cat 指向同一语义。 但它们的 UTF 8编码完全不同,模型需要靠海量平行语料才能把两者的向量拉到相近位置。 而猫的图片不管对应哪种语言,视觉特征天生就包含毛茸茸、有尾巴、会喵喵叫的语义关联,模型无需额外学习就能识别,这就是视觉输入的先天优势,语义与载体天然绑定,无需跨越编码偶然性的鸿沟。 二、关键支撑,Transformer 的位置编码与图像的天然适配。 Transformer 的另一大成功关键,位置编码恰好与图像的特性完美契合,这为视觉输入提供了技术基础。 Transformer 的自注意力机制需要位置编码来区分 token 的顺序。 比如,他吃苹果和苹果吃他。 而文字的位置编码是人工添加的正弦余弦信号,需要模型额外学习位置与语义的关系。 但图像的位置信息是天生的,每个像素都有固定的空间坐标,如100、200的像素代表图像左上角区域。 这种空间位置本身就包含语义,比如猫的头部在图像上方,身体在中间。 模型处理图像时,无需人工添加位置编码,直接通过像素的空间关系就能理解语义,效率远超文字。 DeepC OCR 的突破正是这一逻辑的工程验证。 它没有像传统 OCR 那样依赖文字模板匹配,而是把文本图像当做带空间语义的视觉信号,通过 Transformer 的位置编码捕捉笔画的空间顺序。 比如南字的横竖撇捺位置,再映射到语义向量。 这使得它能压缩模型体积,保留精度的同时缩小参数规模,还能识别生僻字、手写体等不在传统字典里的文本。 本质是用视觉的空间语义,替代了文字的人工编码,证明了视觉输入的高效性。 三、核心矛盾,字典的上限诅咒,从小众语言到未知符号的困境。 卡帕西之所以主张输入全视觉化,核心是要摆脱字典依赖的枷锁。 字典本质是人为划定的语义边界,存在两大无解问题。 一、字典有上限,语义无边界。 拼音语言,如英文的字典需要收录数十万单词。 小众语言,如撒哈拉以南语言的字符更是难以全覆盖,一旦遇到不在字典里的符号,如生僻字、自定义图标,模型就会输出 ANK,完全无法处理。 二、多语言适配成本高,支持一种新语言就需要重新构建该语言的字典,训练对应的 tokenizer。 相当于给模型重新教一套语言体系,成本随语言数量线性增加,无法实现真正的多语言通用。 而视觉输入天然不存在字典上限,不管是拉丁字母、中文汉字,还是未知符号、自定义图标,在模型眼中都是带语义的视觉信号,无需提前收录到字典。 比如 DeepC OCR 2能识别手写的生僻字,四个火不是因为它在字典里,而是模型通过四个火的空间排列推断出这是一个表意字符,再结合上下文输出语义。 这正是无字典的优势,语义由视觉信号直接决定,而非由人工字典划定。 四、逻辑闭环,语义 token 跨模态的中间语言,破解无字典输出难题。 语义 token 的本质是跨模态通用中间语言,类似 Windows Runtime 的中间语言。 Windows 用这种中间语言兼容 C Visual Basic 等多种高级语言。 语义 token 则用统一载体承载图像、文字、声音的核心语义,脱离具体形式束缚,具体表现为三个层面。 一、生成逻辑,自回归依然成立,对象从文字变成语义。 无字典不影响自回归的底层机制。 模型处理图像时,会基于视觉特征按线性顺序先生成语义 token,再生成下一个语义 token。 比如看到人往南走却指向北边的图像,先生成行动的语义 token。 再生成目标的语义 token 最后生成相反的语义 token 形成完整的语义序列。 这个过程中, Softmax 计算的是当前语义向量与语义 token 库的相似度,而非与文字字典的相似度,概率分配逻辑完全通顺。 二、输出灵活,按需映射,不依赖固定字典。 语义 token 的输出无需绑定文字,对内,模型可直接输出语义 token 向量,驱动其他多模态模块,比如给图像生成模块输出行动与目标相反的语义向量,生成对应的场景图。 给语音模块输出开心的语义向量,生成笑声。 对外,若需要人类可读形式,再调用语义语言映射层。 想输出中文,就映射成南辕北辙。 想输出阿拉伯语,就映射成对应的阿拉伯短语。 这个映射层无需重新训练模型,只需用少量语义 token 语言配对数据微调,成本极低。 三、多模态互通,语义是统一语言。 不管是视觉、图像、听觉、声音还是文字,最终都会转化为语义 token,在模型内部运算。 比如猫的图片、猫的叫声、中文猫、英文 cat 都会映射到同一个猫的语义 token。 这种语义统一让多模态协作变得简单。 模型看到猫的图片生成猫的语义 token,既能转成文字猫。 也能生成猫的叫声,还能控制机械臂做出摸猫的动作。 这正是卡帕西设想的输入全视觉化的终极价值,用视觉打破语言壁垒,让模型真正理解世界的语义,而非文字的编码。 五、结论,视觉输入不是替代文字,而是释放语义。 卡帕西的观点并非要消灭文字,而是要让模型摆脱文字编码与字典的束缚,回归语义本身。 文字只是人类交流的工具,不是语义的唯一载体。 当模型能直接从视觉中获取语义,并用语义 token 作为中间语言运算时,它就能突破小众语言无法覆盖、未知符号无法识别、多模态协作困难的瓶颈,真正实现理解世界而非理解文字。 Deepseek OCR 的工程突破,Transformer 与视觉位置编码的适配,语义 token 的中间语言属性,再加上自回归机制的底层支撑,共同构成了输入全视觉化的完整逻辑链。 这不是空想,而是大模型从文字智能迈向世界智能的必经之路。 未来,当我们画一张草图、拍一张照片,模型就能直接输出对应的语义序列,并按需转成文字、生成图像或执行动作时,我们会发现卡帕西的设想本质是让 AI 用人类感知世界的方式,以视觉去理解世界,这才是人工智能的终极形态。
back to top