我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
30年前的科幻笑料成了今天AI革命的科技突破1
视频
音频
原始脚本
30年前的科幻笑料,成了今天 AI 的革命性突破。 致敬 Deepseek 的开源精神。 影子,那个愚蠢的天才和320GB 的人体硬盘。 1995年,基努里维斯主演的科幻片捍卫机密,描绘了一个未来世界,信息就是最昂贵的商品,而主角强尼是一名数据走私者。 他的大脑被植入了特制芯片,能像硬盘一样存储和运输机密数据。 在电影里,一批科学家为了公开治疗神经衰弱综合症的解药配方,雇佣强尼走私关键数据。 剧情紧张刺激,追杀不断。 而这一切的起因,都源于那高达320GB的数据量。 在当时,这需要用卡车才能装下的硬盘,却要塞进一个人的大脑里。 现在,让我们开个脑洞,给这个经典桥段加个幕后花絮。 负责准备数据的,是个刚毕业的 IT 新人。 他看着堆积如山的研究报告、化学方程式和实验记录,挠了挠头,做出了一个致命的决定。 这些文件太重要了,必须高保真保存。 我把它们全部扫描成图片,这样最安全。 结果呢?原本用文本格式存储可能只有几 GB 的数据,瞬间膨胀到了320GB。 科学家们看着这个数字倒吸一口凉气,但时间紧迫,只能硬着头皮把这些图片数据植入强尼的大脑。 一场生死时速的走私就此展开。 当时的观众只会觉得这是科幻设定,而懂点技术的人恐怕会恨不得跳进屏幕,给那个新人一巴掌,你个白痴,不知道图片比文字占空间100倍吗?然而将近30年后的今天,当 Deepseek 团队公布他们的最新 OCR 模型时,我们那只想打人的手却悬在了半空中。 因为他们用一种颠覆性的方式证明了那个新人的做法可能是个超前时代的天才创举。 第一章,大模型的老年痴呆症与无解的压缩困局。 想象一下,你正在和一个朋友兴致勃勃的讨论一部复杂的电影。 你刚花了10分钟把前因后果人物关系都讲的清清楚楚,他听得频频点头,眼神发亮。 然后你抛出一个关键问题,所以你觉得 主角最后的那个决定和他开头的那个选择有什么联系吗?他眨了眨眼,一脸茫然的看着你。 啊?主角开头做什么选择了?你瞬间石化。 这种感觉就是我们现在和大模型聊天时经常遇到的窘境。 这就是大模型的上下文窗口问题,说白了就是他的工作记忆不够用。 什么是上下文窗口?上下文窗口就像大模型的短期记忆容量。 它通常用 token 词元来衡量。 一个 token 可以理解为一个字或一个词的一部分。 目前主流大模型的上下文窗口大约是128K token。 这意味着,他最多只能记住约6~8万个汉字的内容,相当于一本薄书。 一旦对话或文档长度超过这个限制,他就会开始忘事。 前面的内容被挤出记忆,后面的内容无法关联前面的信息。 结果就是前言不搭后语,像得了急性老年痴呆一样。 直觉的陷阱,为什么不能直接压缩?面对这个问题,很多人的第一反应是压缩啊,把信息压缩一下,不就能存更多了吗?这是一个非常自然的想法,但在 token 层面,它完全行不通。 Token 是最小单元,Token 本身已经是经过编码的最小语义单位,就像数字一样。 你无法再把数字5压缩成更小的数字单位,压缩了也白搭。 即使你用 ZIP 或 GZIP 等算法对 token 序列进行压缩,大模型在处理前也必须先解压还原成原始 token。 内存占用不变,解压后的 token 数量一点没少,内存占用依然巨大,压缩只是个无用功。 这在当时看来,几乎是一个无解的死循环。 巨头们的妥协方案,既然无法压缩,业界巨头们只能退而求其次,想出各种妥协办法。 滑动窗口,这就像狗熊掰棒子,只保留最新的一段对话,把前面的全部丢掉。 聊的太久,他就会忘记你们是怎么开始的。 总结压缩,自动把超出窗口的内容生成一份摘要。 这就像让一个健忘的人只记笔记要点,但细节信息会大量丢失。 稀疏注意力,试图让模型只关注重点内容。 但这依赖于模型的判断,常常会漏掉关键细节。 这些方法都只是权宜之计,无法从根本上解决问题。 他们要么丢信息,要么处理复杂,体验始终不佳。 真正的难点,文本的无序性问题的核心在于文本 token 的本质。 当文字被转换成高维向量,Embedding 时,它们的分布往往是离散和随机的。 两个意思相近的词,它们的向量可能相隔很远。 这种无序性使得对向量进行高效压缩变得异常困难。 就像一堆杂乱无章的积木,你很难找到规律把它们紧凑的拼在一起。 谷歌的 Gemini 等模型虽然也在探索向量压缩,但这条路技术难度极高。 在 Deepseek 的方案出现之前,整个行业都被困在这个死胡同里,看不到真正的曙光。
修正脚本
30年前的科幻笑料,成了今天 AI 的革命性突破。 致敬 Deepseek 的开源精神。 引子,那个愚蠢的天才和320GB 的人体硬盘。 1995年,基努里维斯主演的科幻片《捍卫机密》,描绘了一个未来世界,信息就是最昂贵的商品,而主角强尼是一名数据走私者。 他的大脑被植入了特制芯片,能像硬盘一样存储和运输机密数据。 在电影里,一批科学家为了公开治疗神经衰弱综合症的解药配方,雇佣强尼走私关键数据。 剧情紧张刺激,追杀不断。 而这一切的起因,都源于那高达320GB的数据量。 在当时,这需要用卡车才能装下的硬盘,却要塞进一个人的大脑里。 现在,让我们开个脑洞,给这个经典桥段加个幕后花絮。 负责准备数据的,是个刚毕业的 IT 新人。 他看着堆积如山的研究报告、化学方程式和实验记录,挠了挠头,做出了一个致命的决定。 这些文件太重要了,必须高保真保存。 我把它们全部扫描成图片,这样最安全。 结果呢?原本用文本格式存储可能只有几 GB 的数据,瞬间膨胀到了320GB。 科学家们看着这个数字倒吸一口凉气,但时间紧迫,只能硬着头皮把这些图片数据植入强尼的大脑。 一场生死时速的走私就此展开。 当时的观众只会觉得这是科幻设定,而懂点技术的人恐怕会恨不得跳进屏幕,给那个新人一巴掌,你个白痴,不知道图片比文字占空间100倍吗?然而将近30年后的今天,当 Deepseek 团队公布他们的最新 OCR 模型时,我们那只想打人的手却悬在了半空中。 因为他们用一种颠覆性的方式证明了那个新人的做法可能是个超前时代的天才创举。 第一章,大模型的老年痴呆症与无解的压缩困局。 想象一下,你正在和一个朋友兴致勃勃地讨论一部复杂的电影。 你刚花了10分钟把前因后果人物关系都讲得清清楚楚,他听得频频点头,眼神发亮。 然后你抛出一个关键问题,所以你觉得 主角最后的那个决定和他开头的那个选择有什么联系吗?他眨了眨眼,一脸茫然地看着你。 啊?主角开头做什么选择了?你瞬间石化。 这种感觉就是我们现在和大模型聊天时经常遇到的窘境。 这就是大模型的上下文窗口问题,说白了就是它的工作记忆不够用。 什么是上下文窗口?上下文窗口就像大模型的短期记忆容量。 它通常用 token 词元来衡量。 一个 token 可以理解为一个字或一个词的一部分。 目前主流大模型的上下文窗口大约是128K token。 这意味着,它最多只能记住约6~8万个汉字的内容,相当于一本薄书。 一旦对话或文档长度超过这个限制,它就会开始忘事。 前面的内容被挤出记忆,后面的内容无法关联前面的信息。 结果就是前言不搭后语,像得了急性老年痴呆一样。 直觉的陷阱,为什么不能直接压缩?面对这个问题,很多人的第一反应是压缩啊,把信息压缩一下,不就能存更多了吗?这是一个非常自然的想法,但在 token 层面,它完全行不通。 Token 是最小单元,Token 本身已经是经过编码的最小语义单位,就像数字一样。 你无法再把数字5压缩成更小的数字单位,压缩了也白搭。 即使你用 ZIP 或 GZIP 等算法对 token 序列进行压缩,大模型在处理前也必须先解压还原成原始 token。 内存占用不变,解压后的 token 数量一点没少,内存占用依然巨大,压缩只是个无用功。 这在当时看来,几乎是一个无解的死循环。 巨头们的妥协方案,既然无法压缩,业界巨头们只能退而求其次,想出各种妥协办法。 滑动窗口,这就像狗熊掰棒子,只保留最新的一段对话,把前面的全部丢掉。 聊得太久,它就会忘记你们是怎么开始的。 总结压缩,自动把超出窗口的内容生成一份摘要。 这就像让一个健忘的人只记笔记要点,但细节信息会大量丢失。 稀疏注意力,试图让模型只关注重点内容。 但这依赖于模型的判断,常常会漏掉关键细节。 这些方法都只是权宜之计,无法从根本上解决问题。 它们要么丢信息,要么处理复杂,体验始终不佳。 真正的难点,文本的无序性问题的核心在于文本 token 的本质。 当文字被转换成高维向量,Embedding 时,它们的分布往往是离散和随机的。 两个意思相近的词,它们的向量可能相隔很远。 这种无序性使得对向量进行高效压缩变得异常困难。 就像一堆杂乱无章的积木,你很难找到规律把它们紧凑地拼在一起。 谷歌的 Gemini 等模型虽然也在探索向量压缩,但这条路技术难度极高。 在 Deepseek 的方案出现之前,整个行业都被困在这个死胡同里,看不到真正的曙光。
back to top