我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
30年前的科幻笑料成了今天AI革命的科技突破2
视频
音频
原始脚本
第二章,Deepseek 的神来之笔。 当文字穿上了图像的外衣,就在整个行业都被困在文本 token 的死胡同里,对着无法压缩的上下文窗口唉声叹气时,Deepseek 团队却跳出了这个框框,问了一个看似荒谬的问题,如果我们不把文字当文字处理,而是把它当成图片呢?这个想法就像当年那个把所有文件都扫描成图片的 IT 新人。 在所有人看来,这简直是疯了,这不是平白无故增加数据量吗?但 Deepseek 看到了我们没看到的东西。 第一步,文字变图片。 绕开文本的死胡同,Deepseek 的第一步就是把所有文本渲染成一张高清图片。 无论是长篇论文还是代码,都先变成一张巨大的电子稿纸。 这一步彻底摆脱了对文本 token 的依赖。 现在我们处理的不再是离散无序的文字,而是连续有空间结构的图像。 第二步,视觉 token 的秘密,自带位置信息的超级 token。 接下来是最关键的一步,用一个强大的视觉模型,类似处理图片的 CNN,把这张文字图片分割成一个个16×16像素的小方块,也就是视觉 token。 你可能会问,这不就和之前的文本 token 一样,只是换了个形式吗?一个16×16的方块也就能放一两个汉字,效率好像差不多。 但这里有一个天壤之别,视觉 token 天生就包含了位置信息。 在文本世界里,我们需要额外的位置编码,Position Encoding 来告诉模型这个词在那个词的后面。 这不仅占用了宝贵的 Token 名额,而且是一种人为的、相对粗糙的位置表示。 而在图像世界里,每个16×16的视觉 Token 在图片中的位置是绝对的。 左上角的 Token 就代表标题开头,右下角的就代表文章结尾。 这种位置信息是物理上与生俱来的,不需要任何额外编码。 模型一眼就能看出哪些 token 在旁边,哪些在上面,文字间的空间关系和布局信息被完整保留。 第三步,压缩的奇迹,向量空间里的连连看。 现在真正的魔法发生了。 每个视觉 token 会被转换成一个高维向量,这个向量就像这个小方块的语义指纹。 由于文字在页面上是连续且有规律的,相邻的视觉 token 的语义指纹也高度相似。 比如人工和智能这两个词在图片上挨在一起,它们对应的视觉 token 向量也会靠的很近。 这与文本 token 的无序向量形成了鲜明对比。 在这个高维向量空间里,相似的向量可以被高效的聚类和压缩。 这就像玩连连看,把长得几乎一样的牌都翻出来,然后打包成一个。 Deepseek 正是利用了这种高度的相似性,对视觉 token 的向量进行了极致的压缩。 原本需要数千个文本 token 才能表达的一整页内容,经过视觉渲染和向量压缩后,可能只需要几百个视觉 token 就能完整保留所有信息,包括文字内容、字体、格式和空间位置。 这不是简单的格式转换,而是信息表示方式的彻底革命。 他从根本上解决了内存占用的问题,让大模型能一口气吞下一整本书,甚至一个图书馆的资料,且不丢失任何细节。 那个曾经被我们嘲笑的 IT 新人,在30年后的今天终于被证明是超越时代的天才,他的愚蠢行为竟然精准预言了突破大模型瓶颈的终极答案。 第三章,当天才的创举献给了全人类,当我们终于看懂 Deepseek 的文字转图片魔术时,震撼的不仅是技术本身,更是这项技术最终的归宿。 在大模型领域,技术壁垒是最昂贵的资产。 OpenAI 把 GPT 系列藏在黑盒里,靠 API 调用筑起商业壁垒。 谷歌的 Gemini 核心技术秘而不宣,只为巩固生态霸权。 Meta 即便开源模型也常留有余地,从未将最顶尖的突破彻底公之于众。 这是行业默认的生存法则,把革命性的技术攥在手里,才能在千亿美金的赛道上占据先机。 但 Deepseek 偏要打破这条法则。 2025年10月20日,就在这项光学压缩技术足以颠覆行业格局的时刻,他们选择了 MIT 开源协议,将 Deepseek CR 的代码、论文与预训练模型完整的推上了 GitHub 和 Hugging Face。 没有加密,没有限制,甚至配套了 PDF 转图像脚本、批量处理工具等全套工具链,让开发者只需几行代码就能用上这项黑科技。 这已经不是简单的分享,而是一场对行业惯性的反叛。 如果说用图片突破上下文瓶颈是天才的创举,那将这份创举无偿献给全人类就是英雄的格局。 他们明明手握足以构建商业壁垒的钥匙,却转身把它锻造成了照亮整个行业的火炬。 从此,小团队不必再为长文本处理难题发愁。 创业者不用再受制于巨头的 API 限制,甚至学术研究者也能基于这份开源代码探索更前沿的可能性。 我们无从得知 Deepseek 放弃了多少短期商业利益,但能清晰看到他们带来的改变。 这项曾可能被藏在私有服务器里的技术,如今正成为整个 AI 社区的共同财富。 就像当年 Linux 开源打破了闭源系统的垄断,Deepseek 的选择正在为 AI 技术的发展开辟一条更开放、更普惠的道路。 回到捍卫机密的那个脑洞,当科学家们为了让解药配方公之于众,不惜冒险走私数据时,他们守护的是知识共享的初心。 而今天的 Deepseek 正用更文明、更有力的方式践行着同样的初心。 真正的革命从来不是把技术变成私产,而是让技术成为推动全人类进步的力量。 那个被我们笑话了近30年的白痴艾蒂星人,最终以一种意想不到的方式赢了。 他的疯狂想法在 Deepseek 手中变成了改变世界的技术。 而这项技术又以最开放的姿态回到了每一个需要它的人身边。 向 Deepseek 致敬,致敬他们敢于颠覆常识的智慧,更致敬他们愿与世界共享光芒的勇气。
修正脚本
第二章,Deepseek 的神来之笔。 当文字穿上了图像的外衣,就在整个行业都被困在文本 token 的死胡同里,对着无法压缩的上下文窗口唉声叹气时,Deepseek 团队却跳出了这个框框,问了一个看似荒谬的问题,如果我们不把文字当文字处理,而是把它当成图片呢?这个想法就像当年那个把所有文件都扫描成图片的 IT 新人。 在所有人看来,这简直是疯了,这不是平白无故增加数据量吗?但 Deepseek 看到了我们没看到的东西。 第一步,文字变图片。 绕开文本的死胡同,Deepseek 的第一步就是把所有文本渲染成一张高清图片。 无论是长篇论文还是代码,都先变成一张巨大的电子稿纸。 这一步彻底摆脱了对文本 token 的依赖。 现在我们处理的不再是离散无序的文字,而是连续有空间结构的图像。 第二步,视觉 token 的秘密,自带位置信息的超级 token。 接下来是最关键的一步,用一个强大的视觉模型,类似处理图片的 CNN,把这张文字图片分割成一个个16×16像素的小方块,也就是视觉 token。 你可能会问,这不就和之前的文本 token 一样,只是换了个形式吗?一个16×16的方块也就能放一两个汉字,效率好像差不多。 但这里有一个天壤之别,视觉 token 天生就包含了位置信息。 在文本世界里,我们需要额外的位置编码,Position Encoding 来告诉模型这个词在那个词的后面。 这不仅占用了宝贵的 Token 名额,而且是一种人为的、相对粗糙的位置表示。 而在图像世界里,每个16×16的视觉 Token 在图片中的位置是绝对的。 左上角的 Token 就代表标题开头,右下角的就代表文章结尾。 这种位置信息是物理上与生俱来的,不需要任何额外编码。 模型一眼就能看出哪些 token 在旁边,哪些在上面,文字间的空间关系和布局信息被完整保留。 第三步,压缩的奇迹,向量空间里的连连看。 现在真正的魔法发生了。 每个视觉 token 会被转换成一个高维向量,这个向量就像这个小方块的语义指纹。 由于文字在页面上是连续且有规律的,相邻的视觉 token 的语义指纹也高度相似。 比如人工和智能这两个词在图片上挨在一起,它们对应的视觉 token 向量也会靠得很近。 这与文本 token 的无序向量形成了鲜明对比。 在这个高维向量空间里,相似的向量可以被高效地聚类和压缩。 这就像玩连连看,把长得几乎一样的牌都翻出来,然后打包成一个。 Deepseek 正是利用了这种高度的相似性,对视觉 token 的向量进行了极致的压缩。 原本需要数千个文本 token 才能表达的一整页内容,经过视觉渲染和向量压缩后,可能只需要几百个视觉 token 就能完整保留所有信息,包括文字内容、字体、格式和空间位置。 这不是简单的格式转换,而是信息表示方式的彻底革命。 它从根本上解决了内存占用的问题,让大模型能一口气吞下一整本书,甚至一个图书馆的资料,且不丢失任何细节。 那个曾经被我们嘲笑的 IT 新人,在30年后的今天终于被证明是超越时代的天才,他的愚蠢行为竟然精准预言了突破大模型瓶颈的终极答案。 第三章,当天才的创举献给了全人类,当我们终于看懂 Deepseek 的文字转图片魔术时,震撼的不仅是技术本身,更是这项技术最终的归宿。 在大模型领域,技术壁垒是最昂贵的资产。 OpenAI 把 GPT 系列藏在黑盒里,靠 API 调用筑起商业壁垒。 谷歌的 Gemini 核心技术秘而不宣,只为巩固生态霸权。 Meta 即便开源模型也常留有余地,从未将最顶尖的突破彻底公之于众。 这是行业默认的生存法则,把革命性的技术攥在手里,才能在千亿美金的赛道上占据先机。 但 Deepseek 偏要打破这条法则。 2025年10月20日,就在这项光学压缩技术足以颠覆行业格局的时刻,他们选择了 MIT 开源协议,将 Deepseek CR 的代码、论文与预训练模型完整地推上了 GitHub 和 Hugging Face。 没有加密,没有限制,甚至配套了 PDF 转图像脚本、批量处理工具等全套工具链,让开发者只需几行代码就能用上这项黑科技。 这已经不是简单的分享,而是一场对行业惯性的反叛。 如果说用图片突破上下文瓶颈是天才的创举,那将这份创举无偿献给全人类就是英雄的格局。 他们明明手握足以构建商业壁垒的钥匙,却转身把它锻造成了照亮整个行业的火炬。 从此,小团队不必再为长文本处理难题发愁。 创业者不用再受制于巨头的 API 限制,甚至学术研究者也能基于这份开源代码探索更前沿的可能性。 我们无从得知 Deepseek 放弃了多少短期商业利益,但能清晰看到他们带来的改变。 这项曾可能被藏在私有服务器里的技术,如今正成为整个 AI 社区的共同财富。 就像当年 Linux 开源打破了闭源系统的垄断,Deepseek 的选择正在为 AI 技术的发展开辟一条更开放、更普惠的道路。 回到捍卫机密的那个脑洞,当科学家们为了让解药配方公之于众,不惜冒险走私数据时,他们守护的是知识共享的初心。 而今天的 Deepseek 正用更文明、更有力的方式践行着同样的初心。 真正的革命从来不是把技术变成私产,而是让技术成为推动全人类进步的力量。 那个被我们笑话了近30年的白痴IT新人,最终以一种意想不到的方式赢了。 他的疯狂想法在 Deepseek 手中变成了改变世界的技术。 而这项技术又以最开放的姿态回到了每一个需要它的人身边。 向 Deepseek 致敬,致敬他们敢于颠覆常识的智慧,更致敬他们愿与世界共享光芒的勇气。
back to top