我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
为什么大公司都让人工智能视觉走transformer路线
视频
音频
原始脚本
为什么大公司都在让视觉 AI 走 Transformer 路线?从技术史到商业选择的深层逻辑。 提到计算机视觉,很多人会先想到 OpenCV、哈尔级联这些老工具。 早在上世纪90年代,传统视觉算法就已经能解决不少实际问题。 用 HOG 特征做行人检测,靠哈尔级联实现人脸识别,通过 SIFT 匹配图像特征 这些技术至今仍在工厂流水线的零件定位、普通安防的运动抓拍等场景里发挥作用,且优势鲜明,计算量小,适配嵌入式设备,成本可控,完全能满足简单任务加低算力的需求。 但近几年,Meta、谷歌、OpenAI 等公司却不约而同地放弃了传统视觉算法的优化路径,转而让视觉 AI 全面拥抱 Transformer 架构。 Vit, 视觉 Transformer。 Palm 1,多模态 Transformer Sora 视频生成 Transformer 相继问世,甚至不惜承担更高的算力消耗。 这背后绝非技术跟风,而是行业对视觉 AI 未来的一次集体判断。 核心答案藏在两个矛盾与一个关键目标里。 一、先理清一个认知盲点,工业场景的实用与 AI 的长期智能是两回事,很多人疑惑特斯拉自动驾驶用传统 CV 加 CNN 就能实现识别红绿灯、避让行人。 工厂质检用传统算法就能检测零件划痕,为什么大公司还要花大力气做视觉 Transformer ?本质是场景目标不同,工业自动驾驶的当前需求是高效完成单一任务,比如特斯拉的视觉系统。 核心是在100米秒内判断前方物体是否是行人,不需要理解行人为什么过马路,行人穿的衣服是什么材质。 传统 CV 加轻量模型足够快、足够便宜,适配车载嵌入式设备的算力限制。 但 Meta 谷歌的长期目标是让 AI 理解现实世界。 比如让机器人看到杯子时,不仅能识别这是杯子,还能关联杯子能装水、玻璃杯子怕摔等文字知识,甚至用语言描述杯子放在桌子上。 这种视觉加语言加知识的联动,传统视觉算法根本做不到。 它只能输出杯子的像素特征,无法与文字的语义信息产生关联。 简单说,传统视觉是专精工具,能解决眼前的实用问题。 而视觉 Transformer 是基础设施,要解决 AI 如何看懂世界并关联知识的长期问题。 二,视觉 Transformer 的真正价值,打通视觉语言的隐空间,避免二次训练陷阱。 传统视觉算法最大的局限不是识别精度不够,而是与语言系统完全割裂。 用 CNN 训练的猫识别模型会把猫编码成一串视觉特征向量 比如三角形耳朵加毛茸茸身体的数值表达,用 RNN Transformer 之前的语言模型架构。 训练的猫文字模型会把猫编码成一串语言特征向量,比如哺乳动物加会抓老鼠的语义表达。 这两串向量属于两个完全不同的隐空间。 就像中文和英文的字典,AI 不知道视觉里的猫和文字里的猫是同一个东西。 如果要让它们关联,需要额外训练特征转换模块,相当于重新翻译一本字典,成本高且效果差。 而 Transformer 架构恰好解决了这个问题,语言大模型如 GPT,用 Transformer 把文字编码成语言隐空间,视觉 former Ruvit 把图像编码成视觉隐空间,两者架构完全一致,隐空间的数据格式天然兼容,后续只需训练一 个跨模态注意力层,就能让猫的视觉特征与文字猫的语义特征,在隐空间形成一一映射。 相当于 AI 天生就知道,看到的这个动物就是文字里说的猫。 这才是大公司选择 Transformer 的核心,不是为了让视觉识别更准,而是为了让视觉和语言能原生联动。 传统架构需要先训视觉,再训语言,最后训关联,三步走。 而 Transformer 架构能一次训练同步关联,为未来的多模态智能,能看、能说、能理解,省去了二次训练的巨大成本。 3,顶尖公司的选择,用统一架构压住通用智能,Meta、谷歌、OpenAI 的布局。 本质是用 Transformer 统一视觉与语言的技术底座。 Meta 的 ViT,2020年发布,是第一个成熟的视觉 Transformer 模型,直接证明用处理文字的架构能处理图像。 随后推出的 L O V A 多模态模型,正是基于 VIT 的视觉特征与 L L M 的语言特征,实现了看图说话加图像问答。 谷歌的 POMME 更直接,把视觉 Transformer 与语言 Transformer 缝合成一个模型。 让 AI 看到桌子上的苹果时,既能识别物体,又能生成苹果在桌子上,我可以把它拿起来吃的文字逻辑。 OpenAI 的 Sora 虽然是视频生成模型,但其核心依然是用 Transformer 处理视频的时空特征。 并能结合文字指令,如一个人在雪地里散步生成视频。 这背后正是文字引空间与视频引空间的关联能力。 这些公司的专家早在多年前就看清,AI 要实现通用智能 AGI 必须先打破感官与知识的壁垒。 视觉是 AI 获取现实信息的主要渠道,语言是人类积累知识的主要载体,而 Transformer 是目前唯一能让两者原生联动的架构。 对普通人来说,这可能只是技术细节,但对行业而言,这是让 AI 从工具变成能理解世界的智能体的必经之路。 毕竟人类的智能本就是用眼睛看世界、用语言思考和交流的结合体。 结语不只是技术选择,更是智能路线的押注。 我们不必纠结视觉是否必须用 Transformer,在工业场景的高效实用需求里,传统算法仍有不可替代的价值。 但要理解为什么顶尖公司都在做视觉 Transformer 它不是为了替代谁,而是为了搭建 AI 理解世界的基础设施。 当 AI 能像人类一样,看到杯子就想到装水,看到行人皱眉就关联可能生气,这种视觉加语言加知识的联动才是真正的智能。 而 Transformer 正是目前能实现这一目标的最佳路径。
修正脚本
为什么大公司都在让视觉 AI 走 Transformer 路线?从技术史到商业选择的深层逻辑。 提到计算机视觉,很多人会先想到 OpenCV、哈尔级联这些老工具。 早在上世纪90年代,传统视觉算法就已经能解决不少实际问题。 用 HOG 特征做行人检测,靠哈尔级联实现人脸识别,通过 SIFT 匹配图像特征,这些技术至今仍在工厂流水线的零件定位、普通安防的运动抓拍等场景里发挥作用,且优势鲜明,计算量小,适配嵌入式设备,成本可控,完全能满足简单任务加低算力的需求。 但近几年,Meta、谷歌、OpenAI 等公司却不约而同地放弃了传统视觉算法的优化路径,转而让视觉 AI 全面拥抱 Transformer 架构。 ViT:视觉 Transformer。PaLM 1、多模态 Transformer、Sora 视频生成 Transformer 相继问世,甚至不惜承担更高的算力消耗。 这背后绝非技术跟风,而是行业对视觉 AI 未来的一次集体判断。 核心答案藏在两个矛盾与一个关键目标里。 一、先理清一个认知盲点,工业场景的实用与 AI 的长期智能是两回事,很多人疑惑,特斯拉自动驾驶用传统 CV 加 CNN 就能实现识别红绿灯、避让行人,工厂质检用传统算法就能检测零件划痕,为什么大公司还要花大力气做视觉 Transformer ?本质是场景目标不同,工业自动驾驶的当前需求是高效完成单一任务,比如特斯拉的视觉系统,核心是在100毫秒内判断前方物体是否是行人,不需要理解行人为什么过马路,行人穿的衣服是什么材质。 传统 CV 加轻量模型足够快、足够便宜,适配车载嵌入式设备的算力限制。 但 Meta 谷歌的长期目标是让 AI 理解现实世界。 比如让机器人看到杯子时,不仅能识别这是杯子,还能关联杯子能装水、玻璃杯子怕摔等文字知识,甚至用语言描述杯子放在桌子上。 这种视觉加语言加知识的联动,传统视觉算法根本做不到。 它只能输出杯子的像素特征,无法与文字的语义信息产生关联。 简单说,传统视觉是专精工具,能解决眼前的实用问题。 而视觉 Transformer 是基础设施,要解决 AI 如何看懂世界并关联知识的长期问题。 二、视觉 Transformer 的真正价值,打通视觉语言的隐空间,避免二次训练陷阱。 传统视觉算法最大的局限不是识别精度不够,而是与语言系统完全割裂。 用 CNN 训练的猫识别模型会把猫编码成一串视觉特征向量,比如三角形耳朵加毛茸茸身体的数值表达;用 RNN(Transformer 之前的语言模型架构)训练的猫文字模型会把猫编码成一串语言特征向量,比如哺乳动物加会抓老鼠的语义表达。 这两串向量属于两个完全不同的隐空间。 就像中文和英文的字典,AI 不知道视觉里的猫和文字里的猫是同一个东西。 如果要让它们关联,需要额外训练特征转换模块,相当于重新翻译一本字典,成本高且效果差。 而 Transformer 架构恰好解决了这个问题,语言大模型如 GPT,用 Transformer 把文字编码成语言隐空间,视觉 ViT 把图像编码成视觉隐空间,两者架构完全一致,隐空间的数据格式天然兼容,后续只需训练一个跨模态注意力层,就能让猫的视觉特征与文字猫的语义特征,在隐空间形成一一映射。 相当于 AI 天生就知道,看到的这个动物就是文字里说的猫。 这才是大公司选择 Transformer 的核心,不是为了让视觉识别更准,而是为了让视觉和语言能原生联动。 传统架构需要先训视觉,再训语言,最后训关联,三步走。 而 Transformer 架构能一次训练同步关联,为未来的多模态智能,能看、能说、能理解,省去了二次训练的巨大成本。 三、顶尖公司的选择,用统一架构锚定通用智能,Meta、谷歌、OpenAI 的布局。 本质是用 Transformer 统一视觉与语言的技术底座。 Meta 的 ViT,2020年发布,是第一个成熟的视觉 Transformer 模型,直接证明用处理文字的架构能处理图像。 随后推出的 L O V A 多模态模型,正是基于 VIT 的视觉特征与 L L M 的语言特征,实现了看图说话加图像问答。 谷歌的 POMME 更直接,把视觉 Transformer 与语言 Transformer 缝合成一个模型。 让 AI 看到桌子上的苹果时,既能识别物体,又能生成苹果在桌子上,我可以把它拿起来吃的文字逻辑。 OpenAI 的 Sora 虽然是视频生成模型,但其核心依然是用 Transformer 处理视频的时空特征。 并能结合文字指令,如一个人在雪地里散步生成视频。 这背后正是文字隐空间与视频隐空间的关联能力。 这些公司的专家早在多年前就看清,AI 要实现通用智能 AGI 必须先打破感官与知识的壁垒。 视觉是 AI 获取现实信息的主要渠道,语言是人类积累知识的主要载体,而 Transformer 是目前唯一能让两者原生联动的架构。 对普通人来说,这可能只是技术细节,但对行业而言,这是让 AI 从工具变成能理解世界的智能体的必经之路。 毕竟人类的智能本就是用眼睛看世界、用语言思考和交流的结合体。 结语不只是技术选择,更是智能路线的押注。 我们不必纠结视觉是否必须用 Transformer,在工业场景的高效实用需求里,传统算法仍有不可替代的价值。 但要理解为什么顶尖公司都在做视觉 Transformer,它不是为了替代谁,而是为了搭建 AI 理解世界的基础设施。 当 AI 能像人类一样,看到杯子就想到装水,看到行人皱眉就关联可能生气,这种视觉加语言加知识的联动才是真正的智能。 而 Transformer 正是目前能实现这一目标的最佳路径。
back to top