我与未来｜AI正在叩响“触达实体世界”的大门

央广网北京6月13日消息（记者朱冠安）在大语言模型将数字世界的文本处理能力推向极致后，行业的共识正在清晰：下一代人工智能的核心赛场，已从数字世界转向物理世界。6月12日，第八届北京智源大会在北京中关村国际创新中心启幕。随着智源“悟界”全栈技术体系正式发布，人工智能正完成从“理解语言”到“读懂真实物理世界”的范式跃迁，通用智能体、具身智能等前沿成果同步落地，AI正在叩响“触达实体世界”的大门。

第八届北京智源大会现场（央广网记者朱冠安摄）

从词元预测到物理状态预测的底层跃迁

本届智源大会上，“预测下一个物理状态”成为贯穿全场的核心关键词——这被视为人工智能领域最具变革性的范式跃迁。不同于大语言模型仅能基于文本语义完成认知与推理，面向物理世界的世界模型以真实场景的时空规律、物理常识与因果逻辑为建模核心，能够感知、推演环境变化，支撑AI完成与实体世界的主动交互。

北京智源人工智能研究院（简称“智源研究院”）院长王仲远在会上介绍，将现有技术路线划分为四大类：以语言为中心的多模态模型、以像素为中心的视频生成模型、以三维结构为中心的空间模型和以视觉表征为轴心的模型。他表示，以Sora为代表的视频生成模型本质是“世界模拟器”，训练数据掺杂大量影视科幻内容，无法保证物理规律的正确性，并不等同于真正面向物理世界的基座模型。

“世界模型是通往物理通用人工智能的必由之路。”在智源研究院的判断中，当前世界模型的产业阶段大致相当于2012年深度学习刚兴起的时期——技术路线尚未收敛，真实物理数据供给严重不足，距离规模化应用仍有较长距离。但与大语言模型时代中美存在明显代差不同，世界模型领域两国站在同一起跑线，中国科研机构有机会走出原创性的技术路线。

两位图灵奖得主的分享，也为这一范式跃迁提供了底层逻辑与风险预警。2024年图灵奖得主、强化学习奠基人Andrew Barto认为，强化学习“从经验中学习、在试错中搜索最优策略”的特性，正是交互驱动智能的核心，将成为下一代AI从认知走向行动的关键基石。2015年图灵奖得主、现代公钥密码学奠基人Whitfield Diffie则敲响安全警钟：当AI智能体从工具调用迈向自主推理与系统操控，补丁式的传统网络防御已不再适用，必须构建涵盖身份治理、权限委托、运行时监控的完整安全体系，为自主智能体建立密码学级别的信任基座。他同时预判，机器智能深度主导社会运行的进程将提前至2050年前后，人类将以主动接纳效率提升的方式，与AI形成非对抗式的共存关系。

乒乓球人机对战现场（央广网记者朱冠安摄）

悟界亮相构建物理AGI的全栈技术体系

作为国内最早布局世界模型研究的科研机构，智源研究院在本届大会上全面亮出“悟界”全栈技术体系，完整呈现从底层基座模型到下游场景应用、从硬件适配到开源生态的技术路径，也清晰勾勒出中国世界模型研究的落地轮廓。

这套体系的核心，是“物理基座+通用交互”的双引擎世界模型架构。其中，悟界·Physis-v0.1 作为全球首个通用世界基座模型，以“预测下一个物理状态”为底层范式，突破传统垂类场景专用模型的瓶颈。它通过物理隐空间表征替代像素/帧预测，实现跨场景通用物理规律强化学习，支持50余种复杂物理场景的长程推理，从根源上解决AI物理可信性缺失与长程记忆缺失的痛点。模型突破性引入Action交互范式，彻底打破传统大语言模型的技术局限。

另一核心模型悟界·ORCA 是全球首个类人学习世界模型，完成从词元、帧、动作预测到统一世界状态预测的范式跃迁。它以统一物理状态表征替代字符、像素、动作的分立预测，构建起“统一表征—建模—预测—交互”的完整闭环，可同时生成语言思考、视觉预测与动作决策，实现“想、看、动”三位一体，为具身智能、自动驾驶、工业仿真和游戏物理搭建通用统一的技术底座。

围绕世界模型核心，智源研究院已形成多维度的技术延伸。在多模态领域，悟界·Emu3.5登顶《自然》正刊，是我国科研机构主导的大模型成果首次亮相Nature正刊，实现文本、图像、视频的模态打通，率先证明词元预测范式可拓展至多模态统一学习；在生命科学领域，悟界·Brainμ1.0打造全球最大AI—Ready神经科学数据集，破解脑信号跨模态对齐难题，支撑脑疾病诊疗与脑科学前沿研究；悟界·OpenComplex2.5则用统一模型覆盖制药四大关键步骤，为神经退行性疾病药物研发提供核心支撑。

向下落地层面，智源同步推出覆盖医疗、科研、个人、生物安全四大领域的智能体矩阵，让世界模型能力融入真实工作流：面向心脏磁共振的推理式辅助诊断智能体诊断精度达到顶尖心血管医生水平，效率提升30倍；面向科学发现的自主研究智能体可覆盖科研全流程，推动AI从模仿学习向自主学习跨越；个人专属智能体Soul Agent在大会现场化身“智能分身”，实现跨会场同步听会与观点提炼；生物安全防护风险模拟智能体则打通干湿实验闭环，将生物安全风险防控从事后补救转为事前演练。

底层基础设施上，众智FlagOS 2.1作为全球支持芯片种类最多的开源AI系统软件栈，已适配18家芯片品牌的32款AI芯片，覆盖90%以上主流开源大模型，为国产AI芯片规模化应用打造了普适高效的智算底座。

物理世界的AI竞赛刚刚开跑

从2021年让AI“学会语言”的悟道系列，到2025年让AI“懂世界”的悟界系列，智源研究院的技术演进，正是中国AI从追赶到引领范式创新的缩影。本届智源大会释放的信号清晰表明：物理世界正在成为人工智能的全新赛场。

据摩根士丹利预测，2035年世界模型赋能的产业规模将达到10万亿美元；国元证券测算，2030年全球搭载世界模型的机器人市场规模将突破3万亿元。巨大的产业潜力背后，是全行业共同面对的核心挑战：真实物理世界的多模态交互数据极度分散，尚未形成类似互联网文本的规模化数据集；技术路线仍在多元探索阶段，统一的评测标准与框架尚未建立；智能体自主行动带来的安全风险，也需要技术、政策与产业协同应对。

对此，智源给出的解法是“开源开放+青年人才+生态共建”。本届大会上，智源不仅开放世界模型的研发思路与进展，还推出25场论坛、200余场演讲与沉浸式科研体验区，让全球从业者共享前沿成果。30余位30岁以下青年科学家登台分享，AI Native教育论坛首次系统性探讨智能时代的人才培养变革，Token经济与OPC论坛则聚焦智能时代的生产关系重构，为技术落地配套生态与人才支撑。

北京作为全球AI创新的重要风向标城市，正以智源大会为载体，汇聚全球顶尖智慧，探索下一代人工智能的演进路径。当AI逐步叩开实体世界的大门，一场关乎生产方式、生活场景与社会形态的深层变革，已在创新土壤中缓缓铺展。

编辑:阮修星

热榜