我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
别让千里马去拉磨了DeepSeekOCR被误读的背后
视频
音频
原始脚本
别让千里马拉磨,Deepseek OCR 被误读背后,是一场多模态技术的认知错位。 当一位深耕 OCR 领域5年的工程师,用碑文识别错误率、连笔字准确率这些传统指标。 给 DeepMind CoCo 二打出不如帕多瓦科维尔的结论时,一场荒诞却真实的认知错位已然发生。 就像用拉磨效率评判千里马,用载重能力衡量跑车。 不是 DeepMind CoCo 二不够好,而是评价的尺子从一开始就错了。 必须先明确一个核心前提,重要的事情说三遍,是压缩器,不是 OCR ,是压缩器,不是 OCR ,是压缩器,不是 OCR 。 它的 OCR 功能只是压缩有效性的验证器,不是核心产品力。 那些纠结他连笔字认不全,碑文错字多的人,就像拿着显微镜挑千里马的蹄子花纹。 完全没搞懂这东西的使命是跑远路,不是踩的齐。 一,一场错位的测试,被误读的 Token 数,被忽略的信息密度。 那位扫描产品工程师的测试足够专业,但有一组数据的解读完全偏离了重点。 数学公式识别别场景中,Deepseek OCR 的视觉 token 是805个,对应文本 token773个。 压 压缩比0.96。 很多人看到视觉 Token 更多,就嘲讽,这哪是压缩?明明是膨胀。 但真相是,这805个视觉 Token 是整页内容的总 Token,而773个文本 Token 是公式单独的 Token,加上题干和步骤,总文本 Token 会超过2000个。 这时候再算压缩比,805÷2000等于0.4025。 相当于用不到一半的 token 承载了整夜的所有信息,这才是真正的压缩。 更关键的是视觉 token 承载的信息维度是文本 token 永远达不到的。 比如公式 S X 等于减 A 类,一加 X 括号,A 加一,括回,X 除以括号,一加 X,用文本 token 表示,需要拆成线性排列的24个 token。 大模型要理解 是对数符号,分数线上下是分子分母,还得额外调用语法解析逻辑。 而 DeepCocoa 的视觉 token 直接把 ln 在 1+X上方,分数线分隔分子分母的空间结构拍进 token 里。 大模型看一眼就知道这是对数加分式的组合,不用花时间拆解线性文本。 就像同样是记录会议,纯文本 Token 是逐字记录的录音稿,而视觉 Token 是带图表的思维导图。 前者字多但乱,后者字少但清晰。 工程师测试时只算了字的数量,却没算信息传递的效率,这才得出压缩反变膨胀的误解。 二、被骂不行的 OCR 能力,本就是验证工具,不是核心功能。 评论区里最刺耳的声音莫过于连个连笔字都认不全,还好意思叫大模型 OCR。 但这些人没搞懂,Deepseek COCR 的 decoder 解码器本质是压缩效果的体温计。 为什么要保留 OCR 功能?不是为了让你用来转文字,而是而是为了证明压缩没把羽翼弄丢。 就像医生用体温计测体温,不是为了看体温计的数字好不好看,而是为了 确认身体没发烧。 比如压缩一份合同后,用 decoder 输出文字,发现甲方名称里的有限责任公司简写为有限公司,很多人会骂识别错了。 但在大模型眼里,通过视觉 token 里甲方盖章位置、合同编号格式这些信息,早就知道这就是某有限责任公司,简写的几个字根本不影响理解。 这时候,Decoder 输出的错误,其实是压缩策略下的可接受损失。 那位工程师测试时,把 Deepseek OCR 的表格列错位判定为失败,也是同样的逻辑。 在传统 OCR 里,列错位是硬伤。 但在大模型场景里,只要视觉 token 保留了店铺月销完成率的空间对应关系。 大模型扫一眼就知道,一店月销800,完成率72%,列的轻微错位根本不影响数据提取。 三,为什么专业工程师也会踩坑?两种思维的断层。 那位 OCR 工程师的专业度没话说,但他的误解暴露了传统软件思维和大模型思维的三个核心断层。 一、对压缩的理解不一样,Token 数减少,VS 信息效率提升。 传统软件里的压缩就是文件变小、字数变少。 但大模型的压缩是用更少的 Token 承载更多的有效信息。 就像把100页报告浓缩成10页 PPT,页数没多,但信息传递效率翻了10倍。 二、对准确率的定义不一样,字符没错 vs 任务能成。 传统 OCR 追求100个字符错0个。 但 Deepseek OCR 追求压缩后,大模型回答问题的准确率仍能达90%。 比如压缩一份古籍,传统 OCR 会因某个生僻字认错判定失败。 但大模型通过视觉 token 里的上下文,依然能读懂这段讲的是祭祀礼仪。 这时候任务成了比字符对了重要一万倍。 三,对工具定位的认知不一样,单机能用, VS 大模型生态。 传统 OCR 是单机工具,下载下来转完文字使命就结束了。 而 DeepC OCR 是大模型生态的配件,它的视觉 token 必须和大模型的文本 token 协同工作。 就像显卡不是为了自己亮屏,而是为了让游戏设计软件跑得流畅。 脱离大模型谈它的 OCR 能力,就像拿着显卡当砖头砸核桃,不仅没用对地方,还浪费了核心价值。 四,别再纠结 OCR 了,它的价值只在无限上下文里,更在多模态未来里。 当我们跳出 OCR 对错的泥潭,会发现 Deepseek OCR 的颠覆性远不止给大模型压缩上下文这么简单。 在金融场景,100页的财报用它压缩后只剩500个视觉 token,大模型10秒就能算出营收增长率。 而传统方案要先转 OCR,再切分文本,最后检索,半小时都未必出结果。 在科研场景,化学论文里的结构式、公式、实验数据,用它压缩后变成带结构信息的视觉 token 大模型不用额外调用公式识别、图表解析工具,直接就能理解这个反应的步骤和结论。 在教育场景,古籍扫描件不用先花几周做全文 OCR?压缩后直接喂给大模型,就能实现边看古籍边问答。 这些场景里,它不是 OCR 工具,而是大模型处理长文档的钥匙。 更值得关注的是,它的探索恰好呼应了人工智能界的前沿判断。 特斯拉 AI 前负责人 Carpathy 曾说,或许 LLMs 的所有输入都应该是图像。 这句话不是在夸 OCR 工具。 二能力,而是在指出视觉 token 是更通用的输入单元。 一张图里的文字、表格、图表,用视觉 token 压缩后,既能保留猫在桌子上的文字语义,又能保留猫在桌子左边的空间排版。 这种多维度信息合一的能力,是纯文本 token 永远做不到的。 而 DeepCocoa 二正是把这种未来可能性落地成了可用的技术方。 方案。 至于它的 OCR 能力不如 PaddleOCR vL,这太正常了,就像跑车的越野能力不如 SUV,但没人会用越野能力骂跑车不行。 结语,别拿旧地图找新路上的宝藏。 最后再把核心认知焊死在脑子里。 Deepseek C2是用来给大模型压缩上下文的,不是用来转文字的。 如果下次再有人拿连笔字认不全骂他,不用跟他争,只需要问一句,你知道大模型处理5万字报告,用它压缩后能省多少算力吗?你知道视觉 Token 能同时装下文字和图表,纯文本 Token 能吗?毕竟,千里马不会因为有人骂它不会拉磨,就忘了自己该往远方跑。 真正的新技术也不会因为被旧尺子衡量,就失去改变未来的力量。
修正脚本
别让千里马拉磨,Deepseek OCR 被误读背后,是一场多模态技术的认知错位。 当一位深耕 OCR 领域5年的工程师,用碑文识别错误率、连笔字准确率这些传统指标, 给 Deepseek C2打出不如 PaddleOCR 的结论时,一场荒诞却真实的认知错位已然发生。 就像用拉磨效率评判千里马,用载重能力衡量跑车。 不是 Deepseek C2不够好,而是评价的尺子从一开始就错了。 必须先明确一个核心前提,重要的事情说三遍,是压缩器,不是 OCR ,是压缩器,不是 OCR ,是压缩器,不是 OCR 。 它的 OCR 功能只是压缩有效性的验证器,不是核心产品力。 那些纠结它连笔字认不全,碑文错字多的人,就像拿着显微镜挑千里马的蹄子花纹。 完全没搞懂这东西的使命是跑远路,不是踩得齐。 一、一场错位的测试,被误读的 Token 数,被忽略的信息密度。 那位OCR产品工程师的测试足够专业,但有一组数据的解读完全偏离了重点。 数学公式识别的场景中,Deepseek OCR 的视觉 token 是805个,对应文本 token773个。 压缩比0.96。 很多人看到视觉 Token 更多,就嘲讽,这哪是压缩?明明是膨胀。 但真相是,这805个视觉 Token 是整页内容的总 Token,而773个文本 Token 是公式单独的 Token,加上题干和步骤,总文本 Token 会超过2000个。 这时候再算压缩比,805÷2000等于0.4025。 相当于用不到一半的 token 承载了整页的所有信息,这才是真正的压缩。 更关键的是视觉 token 承载的信息维度是文本 token 永远达不到的。 比如公式 ln 一加 X 括号,A 加 X,括回,除以括号一加 X,用文本 token 表示,需要拆成线性排列的24个 token。 大模型要理解ln是对数符号,分数线上下是分子分母,还得额外调用语法解析逻辑。 而 Deepseek C2 的视觉 token 直接把 ln 在 1+X上方,分数线分隔分子分母的空间结构拍进 token 里。 大模型看一眼就知道这是对数加分式的组合,不用花时间拆解线性文本。 就像同样是记录会议,纯文本 Token 是逐字记录的录音稿,而视觉 Token 是带图表的思维导图。 前者字多但乱,后者字少但清晰。 工程师测试时只算了字的数量,却没算信息传递的效率,这才得出压缩反变膨胀的误解。 二、被骂不行的 OCR 能力,本就是验证工具,不是核心功能。 评论区里最刺耳的声音莫过于连个连笔字都认不全,还好意思叫大模型 OCR。 但这些人没搞懂,Deepseek OCR 的 decoder 解码器本质是压缩效果的体温计。 为什么要保留 OCR 功能?不是为了让你用来转文字,而是为了证明压缩没把信息弄丢。 就像医生用体温计测体温,不是为了看体温计的数字好不好看,而是为了确认身体没发烧。 比如压缩一份合同后,用 decoder 输出文字,发现甲方名称里的有限责任公司简写为有限公司,很多人会骂识别错了。 但在大模型眼里,通过视觉 token 里甲方盖章位置、合同编号格式这些信息,早就知道这就是某有限责任公司,简写的几个字根本不影响理解。 这时候,Decoder 输出的错误,其实是压缩策略下的可接受损失。 那位工程师测试时,把 Deepseek OCR 的表格列错位判定为失败,也是同样的逻辑。 在传统 OCR 里,列错位是硬伤。 但在大模型场景里,只要视觉 token 保留了店铺月销完成率的空间对应关系。 大模型扫一眼就知道,一店月销800,完成率72%,列的轻微错位根本不影响数据提取。 三、为什么专业工程师也会踩坑?两种思维的断层。 那位 OCR 工程师的专业度没话说,但他的误解暴露了传统软件思维和大模型思维的三个核心断层。 一、对压缩的理解不一样,Token 数减少,VS 信息效率提升。 传统软件里的压缩就是文件变小、字数变少。 但大模型的压缩是用更少的 Token 承载更多的有效信息。 就像把100页报告浓缩成10页 PPT,页数没多,但信息传递效率翻了10倍。 二、对准确率的定义不一样,字符没错 vs 任务能成。 传统 OCR 追求100个字符错0个。 但 Deepseek OCR 追求压缩后,大模型回答问题的准确率仍能达90%。 比如压缩一份古籍,传统 OCR 会因某个生僻字认错判定失败。 但大模型通过视觉 token 里的上下文,依然能读懂这段讲的是祭祀礼仪。 这时候任务成了比字符对了重要一万倍。 三、对工具定位的认知不一样,单机能用, VS 大模型生态。 传统 OCR 是单机工具,下载下来转完文字使命就结束了。 而 Deepseek C2 是大模型生态的配件,它的视觉 token 必须和大模型的文本 token 协同工作。 就像显卡不是为了自己亮屏,而是为了让游戏设计软件跑得流畅。 脱离大模型谈它的 OCR 能力,就像拿着显卡当砖头砸核桃,不仅没用对地方,还浪费了核心价值。 四、别再纠结 OCR 了,它的价值只在无限上下文里,更在多模态未来里。 当我们跳出 OCR 对错的泥潭,会发现 Deepseek OCR 的颠覆性远不止给大模型压缩上下文这么简单。 在金融场景,100页的财报用它压缩后只剩500个视觉 token,大模型10秒就能算出营收增长率。 而传统方案要先转 OCR,再切分文本,最后检索,半小时都未必出结果。 在科研场景,化学论文里的结构式、公式、实验数据,用它压缩后变成带结构信息的视觉 token,大模型不用额外调用公式识别、图表解析工具,直接就能理解这个反应的步骤和结论。 在教育场景,古籍扫描件不用先花几周做全文 OCR,压缩后直接喂给大模型,就能实现边看古籍边问答。 这些场景里,它不是 OCR 工具,而是大模型处理长文档的钥匙。 更值得关注的是,它的探索恰好呼应了人工智能界的前沿判断。 特斯拉 AI 前负责人 Carpathy 曾说,或许 LLMs 的所有输入都应该是图像。 这句话不是在夸 OCR 工具的能力,而是在指出视觉 token 是更通用的输入单元。 一张图里的文字、表格、图表,用视觉 token 压缩后,既能保留猫在桌子上的文字语义,又能保留猫在桌子左边的空间排版。 这种多维度信息合一的能力,是纯文本 token 永远做不到的。 而 Deepseek C2 正是把这种未来可能性落地成了可用的技术方案。 至于它的 OCR 能力不如 PaddleOCR vL,这太正常了,就像跑车的越野能力不如 SUV,但没人会用越野能力骂跑车不行。 结语:别拿旧地图找新路上的宝藏。 最后再把核心认知焊死在脑子里。 Deepseek C2是用来给大模型压缩上下文的,不是用来转文字的。 如果下次再有人拿连笔字认不全骂它,不用跟他争,只需要问一句,你知道大模型处理5万字报告,用它压缩后能省多少算力吗?你知道视觉 Token 能同时装下文字和图表,纯文本 Token 能吗? 毕竟,千里马不会因为有人骂它不会拉磨,就忘了自己该往远方跑。 真正的新技术也不会因为被旧尺子衡量,就失去改变未来的力量。
back to top