我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
别被AI震撼画面带偏了
视频
音频
原始脚本
别被 AI 震撼画面带偏,我们聊点技术圈不想明说的真相。 最近, C 站 2.0凭借电影级史诗感的视觉效果刷屏。 科幻城堡、宏大场景、精细到极致的材质纹理让无数人惊呼,AI 时代彻底来了,电影工业要被颠覆。 在一片赞叹与狂欢里,我们不妨冷静下来,抛开炫技的画面,从最朴素的原理出发,聊一聊 AI 视觉生成的真实逻辑、能力边界以及那些藏在震撼效果背后的现实问题。 不贬低,不捧杀,只做一次清醒的科普。 一,所有 AI 生成,其实只有两条路,不管是图像、视频,还是号称碾压电影的 AI 创作,底层逻辑只有两种,没有第三条。 第一条路,带字典,绑文字,看图说话。 以谷歌主流多模态模型为代表,把图像和文字强行绑定,模型学习的是屋檐等于屋檐,斗拱等于斗拱,牛等于牛。 它的目标是可解释、可控制、可追溯,服务于搜索。 自动驾驶机器人、 OCR 人机交互,安全合规、能落地,但被语言的边界牢牢锁住,很难放开手脚做极致艺术创作。 第二条路,无字典、纯视觉,图像变图像, CIDAR 、 Sora 、 Stable Diffusion 都属于这一类。 他们不依赖文字描述,没有词汇表,不纠结这是什么,只做一件事,把画面切成最小视觉单元,学习空间规律,再重新组合成新画面。 说白了就是为给他参考图,AI 在视觉世界里做梦,输出更华丽的画面。 这也是他能做出电影级细节的原因,全程在高维视觉里流转,不经过低维文字的压缩与损耗。 二,效果越震撼,越不是脚本写出来的。 很多人误以为如此精细的画面,一定靠超级复杂的剧本、万字提示词、精细化描述,大错特错。 文字是低维信息,图像是高维信息。 普通人连中式建筑的飞檐、梁柱、窗棂都描述不清,更别说材质、光影、纹理、结构层次。 用文字去驱动电影及创作,就像用吸管抽干大海,完全带不动。 C 端真正强大的地方是直接吃参考图、吃视觉素材、吃真实场景,不靠语言脑补,靠视觉复刻与重组。 越精细的画面,越依赖源头素材,而非文字创作。 三,为什么 Sora 火遍全球却突然无声无息?两年前 OpenAI Sora 问世,直接引爆全世界。 可之后却几乎沉寂,不再高调宣发。 不是技术不行,而是商业不敢用,行业不敢碰。 这类纯视觉 AI 的本质是学习海量已有画面,概率性重组画面。 它没有人类意义上的想象力,更像极致的视觉拼贴与风格变换。 这就带来一个致命问题,版权说不清,来源查不明。 好莱坞导演不敢用,一上映就可能被质疑抄袭某部电影场景,广告商不敢用,一不小心就撞构图、撞风格撞元素,纠纷不断,大厂不敢推,不可追溯、不可解释、不可管控。 风险完全不可控,效果越像电影,商业落地越难。 不是做不到,是不能随便做。 四、谷歌那么强,为什么不做震撼效果?一个很反直觉的真相,谷歌不是不会做,是不想做,不敢做。 你能想到的无字点、纯视觉、 patch 变换 做梦式生成,谷歌内部至少五六年前就有成熟研究,甚至比外部产品更早、更底层。 但谷歌的选择非常现实,不做梦幻式创作,只做安全、可控、能商业化、符合监管的技术。 搜索、云服务、机器人、自动驾驶,哪一个都比 AI 化电影更刚需、更稳定、更无风险。 能做出震撼效果是能力,选择不做是商业与合规的理性。 五、给所有人降降温,不必神话,也不必贬低,回到 C 站。 他的工程化落地,视觉效果打磨确实值得肯定,代表了纯视觉生成的顶尖水平。 但我们完全不必陷入盲目自嗨。
修正脚本
别被 AI 震撼画面带偏,我们聊点技术圈不想明说的真相。 最近, C 站 2.0凭借电影级史诗感的视觉效果刷屏。 科幻城堡、宏大场景、精细到极致的材质纹理让无数人惊呼,AI 时代彻底来了,电影工业要被颠覆。 在一片赞叹与狂欢里,我们不妨冷静下来,抛开炫技的画面,从最朴素的原理出发,聊一聊 AI 视觉生成的真实逻辑、能力边界以及那些藏在震撼效果背后的现实问题。 不贬低,不捧杀,只做一次清醒的科普。 一,所有 AI 生成,其实只有两条路,不管是图像、视频,还是号称碾压电影的 AI 创作,底层逻辑只有两种,没有第三条。 第一条路,带字典,绑文字,看图说话。 以谷歌主流多模态模型为代表,把图像和文字强行绑定,模型学习的是屋檐等于屋檐,斗拱等于斗拱,牛等于牛。 它的目标是可解释、可控制、可追溯,服务于搜索。 自动驾驶机器人、 OCR 人机交互,安全合规、能落地,但被语言的边界牢牢锁住,很难放开手脚做极致艺术创作。 第二条路,无字典、纯视觉,图像变图像, CIDAR 、 Sora 、 Stable Diffusion 都属于这一类。 他们不依赖文字描述,没有词汇表,不纠结这是什么,只做一件事,把画面切成最小视觉单元,学习空间规律,再重新组合成新画面。 说白了就是给他参考图,AI 在视觉世界里做梦,输出更华丽的画面。 这也是它能做出电影级细节的原因,全程在高维视觉里流转,不经过低维文字的压缩与损耗。 二,效果越震撼,越不是脚本写出来的。 很多人误以为如此精细的画面,一定靠超级复杂的剧本、万字提示词、精细化描述,大错特错。 文字是低维信息,图像是高维信息。 普通人连中式建筑的飞檐、梁柱、窗棂都描述不清,更别说材质、光影、纹理、结构层次。 用文字去驱动电影级创作,就像用吸管抽干大海,完全带不动。 C 站真正强大的地方是直接吃参考图、吃视觉素材、吃真实场景,不靠语言脑补,靠视觉复刻与重组。 越精细的画面,越依赖源头素材,而非文字创作。 三,为什么 Sora 火遍全球却突然无声无息?两年前 OpenAI Sora 问世,直接引爆全世界。 可之后却几乎沉寂,不再高调宣发。 不是技术不行,而是商业不敢用,行业不敢碰。 这类纯视觉 AI 的本质是学习海量已有画面,概率性重组画面。 它没有人类意义上的想象力,更像极致的视觉拼贴与风格变换。 这就带来一个致命问题,版权说不清,来源查不明。 好莱坞导演不敢用,一上映就可能被质疑抄袭某部电影场景,广告商不敢用,一不小心就撞构图、撞风格、撞元素,纠纷不断,大厂不敢推,不可追溯、不可解释、不可管控。 风险完全不可控,效果越像电影,商业落地越难。 不是做不到,是不能随便做。 四、谷歌那么强,为什么不做震撼效果?一个很反直觉的真相,谷歌不是不会做,是不想做,不敢做。 你能想到的无字典、纯视觉、 patch 变换 做梦式生成,谷歌内部至少五六年前就有成熟研究,甚至比外部产品更早、更底层。 但谷歌的选择非常现实,不做梦幻式创作,只做安全、可控、能商业化、符合监管的技术。 搜索、云服务、机器人、自动驾驶,哪一个都比 AI 化电影更刚需、更稳定、更无风险。 能做出震撼效果是能力,选择不做是商业与合规的理性。 五、给所有人降降温,不必神话,也不必贬低,回到 C 站。 他的工程化落地,视觉效果打磨确实值得肯定,代表了纯视觉生成的顶尖水平。 但我们完全不必陷入盲目自嗨。
back to top