甘肃零距离网 | 甘肃综合城市门户 !

宜信财富:技术条件具备,世界模型研发会加速吗


当一辆自动驾驶汽车驶入混乱的十字路口,它能否像人类一样预判行人突然横穿、自行车强行转弯?答案令人沮丧——目前的AI系统大多只能依赖海量标注数据中的统计规律,却缺乏对物理世界的直觉理解。这正是全球顶尖AI实验室争相攻克“世界模型”的深层原因:让机器拥有属于自己的“脑内剧场”,能在行动前先在内部模拟中推演未来。

从心智蓝图到数字模拟

人类从婴儿期就开始构建理解世界如何运作的内部模型——我们知道杯子放在桌边可能掉落,知道球会顺着斜坡滚动。这种认知科学中的“心智模型”概念,在20世纪就被引入人工智能研究。强化学习先驱Richard Sutton提出的Dyna架构,首次将“世界模型”确立为智能体的基础能力:智能体不仅要学习行动策略,还要学习“当我采取某个动作后,世界会如何变化”。

三大支柱构建完整智能

深度学习成熟后,世界模型迎来关键突破。一个完整的智能体需要三大模块协同:视觉模块负责从海量像素中提取关键特征,记忆模块像内置物理引擎一样预测“如果我这样做,世界会怎样变化”,控制模块则在记忆模块创造的内部梦境中训练最优策略,最后只将最佳方案执行一次。

两条路径的殊死较量

大语言模型预测的是下一个词,本质上是语言的统计学;世界模型预测的是下一帧画面、下一步状态变化,需要真正理解物理规律。前者依赖静态文本,后者需要动态视频和传感器数据。当前AI界分裂为两大阵营:一派认为继续扩大语言模型规模就能逼近通用人工智能,另一派则坚持语言模型永远无法真正理解现实世界。

瓶颈显现时的必然转向

单纯把模型做得更大已不再带来立竿见影的突破,算力、数据、能源的性价比正在快速下降。与此同时,全行业对具身智能的期待却在飙升——从机器人到自动驾驶,从工业控制到虚拟世界构建,这些必须进入真实物理场景的任务,暴露了纯语言路线的根本缺陷:语言世界太干净了,它无法提供现实世界中那种混乱、连续、充满不确定性的因果经验。

多模态技术的成熟、视频生成能力的突破、算力成本的下降,这些条件在近几年才逐步具备,让训练真正的世界模型成为可能。虽然目前关于“什么是世界模型”还没有统一答案,不同技术流派也在各自探索,但一个共识正在形成:AI要从“只会回答问题的语言机器”进化为“能观察、会推理、敢行动”的真正智能体,世界模型是无法绕过的核心技术栈。这不仅是下一个十年的研究方向,更可能是通向通用人工智能的最后拼图。

摘要:

当一辆自动驾驶汽车驶入混乱的十字路口,它能否像人类一样预判行人突然横穿、自行车强行转弯?答案令人沮丧——