我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
从概率读图到可靠总指挥大语言模型如何能成为下一代操作系统
视频
音频
原始脚本
从概率赌徒到可靠总指挥,大语言模型如何成为下一代操作系统?想象一下,未来的 AI 将成为我们数字生活的总指挥,一个操作系统级别的智能体。 它会帮你安排日程、管理邮件,甚至调用其他 AI 工具来完成复杂任务。 OpenAI 的 CEO Sam Altman 和阿里等巨头都看好这个方向。 但这里有个致命矛盾,我们能信任一个本质上是概率赌徒的总指挥吗?一,为什么大语言模型是概率赌徒?要理解这个问题,我们得先看看大语言模型是怎么工作的。 当你问它一个问题时,它并不是在思考或回忆,而是在玩一个高级的猜词游戏。 它会根据你输入的内容和它学习过的海量数据,计算下一个最可能出现的词是什么。 他就像一个精通语言模式的赌徒,每次都下注在概率最高的选项上。 这个机制在绝大多数情况下都能给出令人信服的答案,但他有一个根本性的缺陷,他无法保证100%正确。 因为他追求的是语言模式的连贯性,而不是事实的绝对准确性。 偶尔,它会把一些听起来很像,但实际错误的信息组合在一起,这就是我们常说的幻觉。 更关键的是,这种小概率的错误是所有大语言模型的出厂设置,无法从根本上杜绝。 就算模型参数从万亿级增加到百万亿级,也只能降低错误概率,而不能完全 消除它。 对于偶尔用它查资料的用户来说,这个风险尚可接受。 但对于需要调度各种任务、管理数字生活的操作系统总指挥来说,一次误判就可能导致灾难性后果。 二、初步方案,用三驾马车降低风险。 面对概率赌徒这个难题,最简单直接的思路就是并行推理,也常被称为多数投票,majority voting。 这个方法的灵感来源于航空航天等高可靠性领域。 想象一下,宇宙飞船的导航系统绝不能依赖单个传感器,如果那个传感器出错,整个任务就可能失败。 所以关键系统通常会安装三个完全相同的传感器,同时测量同一个数据。 如果其中一个数据和另外两个不一样,系统就会认为它出了故障,自动采用另外两个一致的数据。 大语言模型的并行推理也是同样的道理。 一、复制实例。 对于同一个问题,系统会启动奇数个,通常是3个、5个或7个完全相同的模型实例。 这些实例就像三架并行起飞的马车,各自独立思考。 二、独立作答。 每个模型实例都会独立生成自己的答案。 由于模型的概率特性,它们偶尔会得出不同的结论。 三、投票裁决。 系统收集所有实力的答案,将出现次数最多的那个作为最终结果。 因为错误答案是小概率事件,正确答案自然会在投票中胜出。 选择奇数个实力就是为了避免出现平局的尴尬场面,确保总能选出一个明确的结果。 这种方法确实能有效降低随机错误的发生。 但它有一个明显的短板,如果模型对某个错误信息产生了集体幻觉,及多个实例都犯了同一个逻辑错误,那么投票机制就失效了。 它能解决概率性问题,却无法解决逻辑性问题。 而且同时运行多个模型实例会显著增加计算成本和响应时间,这也是它无法成为终极方案的原因之一。 三,核心方案,让总指挥学会写作业并接受批改。 真正的突破来自于思维链,Chain of Thought 验证机制。 这个机制的核心不是让模型更聪明,而是引入了一个独立的裁判来监督它的每一步思考。 整个流程分为两步,一,写出解题过程。 要求模型不仅给出最终答案,还要把每一步的推理过程都详细写出来。 这就像学生做完数学题后,必须把演算步骤写在卷子上。 二、由裁判检查过程,引入一个独立的验证器来检查这份作业。 这个验证器不关心答案是否漂亮,只检查每一步推理是否符合逻辑规则,计算是否准确。 这个验证器是一个由多个专业小工具组成的集合,各司其职。 数学计算验证器,专门检查加减乘除、微积分等计算是否正确。 逻辑规则验证器,检查是否违反了基本的逻辑法则。 知识库查询器,对于需要外部知识的步骤,去权威数据库中核实。 只有当验证器确认整个思维链完全正确后,最终答案才会被采纳。 如果发现某一步错误,整个思维链会被打回,要求重新生成。 四、解决双轨制矛盾,安全永远是第一位。 思维链验证要求模型输出机器能看懂的结构化格式,但用户需要的是自然流畅的语言,这就产生了双轨制的矛盾。 解决办法的核心原则是安全优先,具体流程如下。 一、模型输出结构化思维链,这是给验证器看的原始作业,保证了可验证性。 二、验证器检查通过后提取结论,验证器只关心推理过程是否正确,并从中提取最终结论。 三、将结论翻译成用户友好形式。 最后系统会 会把结论用自然语言或图形界面等方式呈现给用户。 这个流程从根本上避免了两张皮问题,因为最终呈现给用户的内容,其源头是经过验证器确认过的正确结论,而不是模型直接生成的自然语言。 模型的角色被严格限制在提出解题思路,而最终的正确性判断和结果输出,则由更可靠的系统组件完成。 结语,通往可靠 AI 的必经之路,从概率赌徒到可靠总指挥,大语言模型要成为下一代操作系统,必须解决可靠性这个核心难题。 思维链验证机制提供了一条切实可行的路径,它通过写出过程、独立验算的方式,将概率模型的不确定性转化为可以被严格验证的确定性。 这不仅是技术上的突破,更是 AI 从能说会道走向真正可靠的关键一步。 随着这套机制的不断完善,我们离那个由 AI 可靠驱动的未来又近了一大步。
修正脚本
从概率赌徒到可靠总指挥,大语言模型如何成为下一代操作系统?想象一下,未来的 AI 将成为我们数字生活的总指挥,一个操作系统级别的智能体。 它会帮你安排日程、管理邮件,甚至调用其他 AI 工具来完成复杂任务。 OpenAI 的 CEO Sam Altman 和阿里等巨头都看好这个方向。 但这里有个致命矛盾,我们能信任一个本质上是概率赌徒的总指挥吗?一,为什么大语言模型是概率赌徒?要理解这个问题,我们得先看看大语言模型是怎么工作的。 当你问它一个问题时,它并不是在思考或回忆,而是在玩一个高级的猜词游戏。 它会根据你输入的内容和它学习过的海量数据,计算下一个最可能出现的词是什么。 它就像一个精通语言模式的赌徒,每次都下注在概率最高的选项上。 这个机制在绝大多数情况下都能给出令人信服的答案,但它有一个根本性的缺陷,它无法保证100%正确。 因为它追求的是语言模式的连贯性,而不是事实的绝对准确性。 偶尔,它会把一些听起来很像,但实际错误的信息组合在一起,这就是我们常说的幻觉。 更关键的是,这种小概率的错误是所有大语言模型的出厂设置,无法从根本上杜绝。 就算模型参数从万亿级增加到百万亿级,也只能降低错误概率,而不能完全消除它。 对于偶尔用它查资料的用户来说,这个风险尚可接受。 但对于需要调度各种任务、管理数字生活的操作系统总指挥来说,一次误判就可能导致灾难性后果。 二、初步方案,用三驾马车降低风险。 面对概率赌徒这个难题,最简单直接的思路就是并行推理,也常被称为多数投票,majority voting。 这个方法的灵感来源于航空航天等高可靠性领域。 想象一下,宇宙飞船的导航系统绝不能依赖单个传感器,如果那个传感器出错,整个任务就可能失败。 所以关键系统通常会安装三个完全相同的传感器,同时测量同一个数据。 如果其中一个数据和另外两个不一样,系统就会认为它出了故障,自动采用另外两个一致的数据。 大语言模型的并行推理也是同样的道理。 一、复制实例。 对于同一个问题,系统会启动奇数个,通常是3个、5个或7个完全相同的模型实例。 这些实例就像三架并行起飞的马车,各自独立思考。 二、独立作答。 每个模型实例都会独立生成自己的答案。 由于模型的概率特性,它们偶尔会得出不同的结论。 三、投票裁决。 系统收集所有实例的答案,将出现次数最多的那个作为最终结果。 因为错误答案是小概率事件,正确答案自然会在投票中胜出。 选择奇数个实例就是为了避免出现平局的尴尬场面,确保总能选出一个明确的结果。 这种方法确实能有效降低随机错误的发生。 但它有一个明显的短板,如果模型对某个错误信息产生了集体幻觉,即多个实例都犯了同一个逻辑错误,那么投票机制就失效了。 它能解决概率性问题,却无法解决逻辑性问题。 而且同时运行多个模型实例会显著增加计算成本和响应时间,这也是它无法成为终极方案的原因之一。 三,核心方案,让总指挥学会写作业并接受批改。 真正的突破来自于思维链,Chain of Thought 验证机制。 这个机制的核心不是让模型更聪明,而是引入了一个独立的裁判来监督它的每一步思考。 整个流程分为两步,一,写出解题过程。 要求模型不仅给出最终答案,还要把每一步的推理过程都详细写出来。 这就像学生做完数学题后,必须把演算步骤写在卷子上。 二、由裁判检查过程,引入一个独立的验证器来检查这份作业。 这个验证器不关心答案是否漂亮,只检查每一步推理是否符合逻辑规则,计算是否准确。 这个验证器是一个由多个专业小工具组成的集合,各司其职。 数学计算验证器,专门检查加减乘除、微积分等计算是否正确。 逻辑规则验证器,检查是否违反了基本的逻辑法则。 知识库查询器,对于需要外部知识的步骤,去权威数据库中核实。 只有当验证器确认整个思维链完全正确后,最终答案才会被采纳。 如果发现某一步错误,整个思维链会被打回,要求重新生成。 四、解决双轨制矛盾,安全永远是第一位。 思维链验证要求模型输出机器能看懂的结构化格式,但用户需要的是自然流畅的语言,这就产生了双轨制的矛盾。 解决办法的核心原则是安全优先,具体流程如下。 一、模型输出结构化思维链,这是给验证器看的原始作业,保证了可验证性。 二、验证器检查通过后提取结论,验证器只关心推理过程是否正确,并从中提取最终结论。 三、将结论翻译成用户友好形式。 最后系统会把结论用自然语言或图形界面等方式呈现给用户。 这个流程从根本上避免了两张皮问题,因为最终呈现给用户的内容,其源头是经过验证器确认过的正确结论,而不是模型直接生成的自然语言。 模型的角色被严格限制在提出解题思路,而最终的正确性判断和结果输出,则由更可靠的系统组件完成。 结语,通往可靠 AI 的必经之路,从概率赌徒到可靠总指挥,大语言模型要成为下一代操作系统,必须解决可靠性这个核心难题。 思维链验证机制提供了一条切实可行的路径,它通过写出过程、独立验算的方式,将概率模型的不确定性转化为可以被严格验证的确定性。 这不仅是技术上的突破,更是 AI 从能说会道走向真正可靠的关键一步。 随着这套机制的不断完善,我们离那个由 AI 可靠驱动的未来又近了一大步。
back to top