我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
从编码到人工智能中英文在大语言模型中的效率悖论
视频
音频
原始脚本
从编码到智能,中英文在大语言模型中的效率悖论。 当一篇中文文章翻译成英文后,一个令人惊讶的事实浮现。 即使使用最节省空间的 GB 2312编码,每个汉字两字节,中文的存储开销也将近是英文的两倍。 若使用 UTF-8编码,每个汉字三字节,差距更是达到3倍。 在信息存储层面,英文的效率优势似乎是碾压性的。 然而,当我们进入大语言模型的世界,这一结论却发生了戏剧性逆转。 中文用仅3500个常用汉字的迷你字典,战胜了英文动辄10万 token 的庞大词库。 这种从碾压性劣势到根本性优势的反转,揭示了智能时代语言效率的全新定义。 一、编码层面的效率假象。 从计算机存储角度看,英文的优势是根本性的。 在我们的统计中,一篇5094字的中文原文,以 GB 2312编码,约占10188字节,UTF 8编码则需15282字节。 其英文译文,即使包含分割英文单词的空格,也才7761个字符。 而英文的 UTF-8编码依旧是7761字节。 无论采用何种编码,中文的存储开销都显著高于英文。 这种差距源于两种语言的底层构造。 英文作为拼音文字,26个字母通过组合即可表达无限含义,每个字母仅需一字节存储。 而中文作为表意文字,即使采用最紧凑的编码方案,每个汉字也至少需要两字节。 在信息存储的上半场,英文的效率优势无可争议。 二、大语言模型的机制革命,Transformer 与字典的诞生。 要理解效率的逆转,我们首先需要了解大语言模型的核心工作原理及其字典的来源。 字典是如何动态构建的?大语言模型的字典、词汇表并非预先编写,而是在预训练阶段通过算法动态生成的。 模型在海量文本中学习,目标是找到 最优的字符组合方式。 它会优先将高频出现的完整单词,如 the、a 加入字典。 对于低频长单词,会尝试拆分成更短的子词,如 pneumonia 拆为 new 和 monia。 这一过程平衡了字典大小和编码效率。 字典里的每个 token 代表模型已理解并能使用的语言单元。 Transformer 的工作流程。 你可以把它想象成一个只会查自己这本动态生成字典的预言家。 一、输入处理,当你输入我今天不舒服,好像得了肺时,模型将文字转换成数字。 二、上下文理解,模型分析上下文,理解不舒服和肺的关联。 三、预测下一个词,模型在自己的字典里搜索,寻找最可能的下一个 Token。 四、Softmax 计算,为字典里每个词计算概率,字典越大计算越慢。 5,输出结果,选出概率最高的词,如肺炎,输出,然后开始下一轮预测。 3,中英文模型的字典策略对比,3500字 vs 10万 Token。 字典的大小和构成方式是中英文效率差异的关键。 这是一个直接的、无可回避的数字对比。 中文模型,3500字的集至压缩,中文模型有一个巨大优势,它有一个天然的、可极致压缩的保底方案,最小字典,现代汉语常用字约 约3500个,这3500个字也能覆盖99.9%以上的使用场景。 极致压缩,理论上一个仅包含着3500个汉字的字典,就能让模型处理任何中文内容,包括最专业的医学和法律文本。 笨办法也能行,最坏情况下,模型会一个字一个字的生成。 比如肺炎,它会先预测肺,再预测炎。 虽然慢,但它一定能生成,绝不会不认识。 优化空间,为了提高效率,中文模型会把高频词组和成语也加入字典,作为单个快查项。 这就是为什么中文模型字典规模通常在3万到10万之间,既有基础汉字,也有优化过的词组。 英文模型10万 token 的庞大身躯。 英文模型怎么有这样的保底方案?它的字典规模天生就大。 必须完整收录。 英文中有大量无法拆分的常用词,如 the a and 等,必须完整加入字典。 词根的局限,虽然英文有词根系统,约2000~3000个常用词根,但它不是一个完整的语言系统。 专业术语爆炸、医学、法律等领域的专业词汇可达几十万。 即使使用词根拆分,仍有大量专业术语无法被有效拆分或拆分后失去意义。 最终规模,据统计,专业英文模型的字典规模通常在10万到15万 token 以上,远大于中文模型的最小字典规模。 四、本质差异,极致压缩与不得不庞大。 中英文模型的根本差异在于面对未知词汇时的不同表现,这是一个关乎能力底线的区别。 中文模型可极致压缩,确保能。 中文模型有天然的保底机制,即使遇到新词也能用基础汉字组合表达。 例如量子计算机,即使字典里没有这个词组,模型也能依次生成量子计算机。 最坏情况只是生成速度慢一些,但它一定能生成,不会不认识。 这是一种能力上的保证。 源于其组合式的语言构造,英文模型不得不庞大,可能不能。 英文模型没有保底机制,它完全依赖字典里是否收录了完整的单词或可拆分的词根。 面对大量专业术语和不规则词,模型仍需不断扩充字典。 这直接导致模型在处理罕见专业术语时,更容易出现不认识的情况。 5、结论,智能时代的语言优势,从编码到智能,效率的定义发生了深刻转变。 英文在存储和简单处理上的效率优势,在大语言模型的复杂推理中,被中文的组合灵活性彻底超越。 这种转变揭示了智能时代的语言优势。 英文的优势在于快 不快,适合处理结构化的已知信息。 中文的优势在于能不能,更适应开放世界的知识扩展。 在知识爆炸的时代,语言的真正价值不仅在于表达的效率,更在于适应变化的能力。 中文通过有限字符组合无限概念的特性,在大语言模型中展现出独特的优势,为处理复杂多变的现实世界问题提供了更具韧性的解决方案。 这种优势不仅是技术层面的效率考量。 更是语言体系对智能时代本质需求的深刻契合。
修正脚本
从编码到智能,中英文在大语言模型中的效率悖论。 当一篇中文文章翻译成英文后,一个令人惊讶的事实浮现。 即使使用最节省空间的 GB 2312编码,每个汉字两字节,中文的存储开销也将近是英文的两倍。 若使用 UTF-8编码,每个汉字三字节,差距更是达到3倍。 在信息存储层面,英文的效率优势似乎是碾压性的。 然而,当我们进入大语言模型的世界,这一结论却发生了戏剧性逆转。 中文用仅3500个常用汉字的迷你字典,战胜了英文动辄10万 token 的庞大词库。 这种从碾压性劣势到根本性优势的反转,揭示了智能时代语言效率的全新定义。 一、编码层面的效率假象。 从计算机存储角度看,英文的优势是根本性的。 在我们的统计中,一篇5094字的中文原文,以 GB 2312编码,约占10188字节,UTF 8编码则需15282字节。 其英文译文,即使包含分割英文单词的空格,也才7761个字符。 而英文的 UTF-8编码依旧是7761字节。 无论采用何种编码,中文的存储开销都显著高于英文。 这种差距源于两种语言的底层构造。 英文作为拼音文字,26个字母通过组合即可表达无限含义,每个字母仅需一字节存储。 而中文作为表意文字,即使采用最紧凑的编码方案,每个汉字也至少需要两字节。 在信息存储的上半场,英文的效率优势无可争议。 二、大语言模型的机制革命,Transformer 与字典的诞生。 要理解效率的逆转,我们首先需要了解大语言模型的核心工作原理及其字典的来源。 字典是如何动态构建的?大语言模型的字典、词汇表并非预先编写,而是在预训练阶段通过算法动态生成的。 模型在海量文本中学习,目标是找到最优的字符组合方式。 它会优先将高频出现的完整单词,如 the、a 加入字典。 对于低频长单词,会尝试拆分成更短的子词,如 pneumonia 拆为 new 和 monia。 这一过程平衡了字典大小和编码效率。 字典里的每个 token 代表模型已理解并能使用的语言单元。 Transformer 的工作流程。 你可以把它想象成一个只会查自己这本动态生成字典的预言家。 一、输入处理,当你输入我今天不舒服,好像得了肺时,模型将文字转换成数字。 二、上下文理解,模型分析上下文,理解不舒服和肺的关联。 三、预测下一个词,模型在自己的字典里搜索,寻找最可能的下一个 Token。 四、Softmax 计算,为字典里每个词计算概率,字典越大计算越慢。 五、输出结果,选出概率最高的词,如肺炎,输出,然后开始下一轮预测。 三、中英文模型的字典策略对比,3500字 vs 10万 Token。 字典的大小和构成方式是中英文效率差异的关键。 这是一个直接的、无可回避的数字对比。 中文模型,3500字的极致压缩,中文模型有一个巨大优势,它有一个天然的、可极致压缩的保底方案,最小字典,现代汉语常用字约3500个,这3500个字也能覆盖99.9%以上的使用场景。 极致压缩,理论上一个仅包含着3500个汉字的字典,就能让模型处理任何中文内容,包括最专业的医学和法律文本。 笨办法也能行,最坏情况下,模型会一个字一个字地生成。 比如肺炎,它会先预测肺,再预测炎。 虽然慢,但它一定能生成,绝不会不认识。 优化空间,为了提高效率,中文模型会把高频词组和成语也加入字典,作为单个快查项。 这就是为什么中文模型字典规模通常在3万到10万之间,既有基础汉字,也有优化过的词组。 英文模型10万 token 的庞大身躯。 英文模型哪有这样的保底方案?它的字典规模天生就大。 必须完整收录。 英文中有大量无法拆分的常用词,如 the a and 等,必须完整加入字典。 词根的局限,虽然英文有词根系统,约2000~3000个常用词根,但它不是一个完整的语言系统。 专业术语爆炸、医学、法律等领域的专业词汇可达几十万。 即使使用词根拆分,仍有大量专业术语无法被有效拆分或拆分后失去意义。 最终规模,据统计,专业英文模型的字典规模通常在10万到15万 token 以上,远大于中文模型的最小字典规模。 四、本质差异,极致压缩与不得不庞大。 中英文模型的根本差异在于面对未知词汇时的不同表现,这是一个关乎能力底线的区别。 中文模型可极致压缩,确保能行。 中文模型有天然的保底机制,即使遇到新词也能用基础汉字组合表达。 例如量子计算机,即使字典里没有这个词组,模型也能依次生成量子计算机。 最坏情况只是生成速度慢一些,但它一定能生成,不会不认识。 这是一种能力上的保证。 源于其组合式的语言构造,英文模型不得不庞大,可能不行。 英文模型没有保底机制,它完全依赖字典里是否收录了完整的单词或可拆分的词根。 面对大量专业术语和不规则词,模型仍需不断扩充字典。 这直接导致模型在处理罕见专业术语时,更容易出现不认识的情况。 五、结论,智能时代的语言优势,从编码到智能,效率的定义发生了深刻转变。 英文在存储和简单处理上的效率优势,在大语言模型的复杂推理中,被中文的组合灵活性彻底超越。 这种转变揭示了智能时代的语言优势。 英文的优势在于快不快,适合处理结构化的已知信息。 中文的优势在于能不能,更适应开放世界的知识扩展。 在知识爆炸的时代,语言的真正价值不仅在于表达的效率,更在于适应变化的能力。 中文通过有限字符组合无限概念的特性,在大语言模型中展现出独特的优势,为处理复杂多变的现实世界问题提供了更具韧性的解决方案。 这种优势不仅是技术层面的效率考量。 更是语言体系对智能时代本质需求的深刻契合。
back to top