我与未来｜“预测下一个物理状态” 王仲远解读下一代人工智能演进路线

央广网北京6月13日消息（记者朱冠安）从大模型到多模态，再到世界模型，人工智能的每一次范式跃迁，都伴随着概念热潮与技术沉淀的交织。

第八届北京智源大会现场（央广网记者朱冠安摄）

6月12日，第八届北京智源大会在北京开幕。北京智源人工智能研究院（简称“智源”或“智源研究院”）院长王仲远在预热采访中，系统性拆解了人工智能的下一程演进逻辑。在技术概念快速迭代、行业热潮与认知误区交织的当下，王仲远披露智源在基座模型、神经科学、智能体等领域的一系列原创成果，并厘清世界模型的核心定义与技术路径，勾勒出人工智能从数字世界迈向物理世界的完整演进路线图。

世界模型成下一代AI基座全模态潜空间建模可能是世界模型真正的突破路径

人工智能的范式迭代，正从“预测下一个Token”迈向“预测下一个物理状态”。在王仲远看来，这是大模型发展至今水到渠成的必然方向。从早年的大语言模型处理文本，到多模态模型融合图像、音频，再到如今需要解决真实物理空间的时空规律与常识交互，人工智能正在跨越数字与物理的边界。

机器人正在套垃圾袋（央广网记者朱冠安摄）

智源研究院是国内最早布局世界模型的科研机构。早在2023年大语言模型热度最高时，智源大会便引入人工智能领域专家杨立昆关于世界模型的前沿观点；2024年明确提出“大语言模型—多模态大模型—世界模型”的技术演进路径；随着悟界·Emu3、Emu3.5相继发布，多模态世界模型的技术路径逐步落地。到2026年，智源明确提出，世界模型有望成为下一代人工智能基座模型。

针对当前行业内世界模型概念泛化、误用的现状，王仲远将现有技术路线划分为四大类：以语言为中心的世界模型（含大语言模型、VLM、VLA）、以像素为中心的世界模型（以视频生成为代表）、以三维结构为中心的世界模型，以及以视觉表征为轴心的世界模型。他特别澄清，视频生成模型并不等同于世界模型——其训练目标并非还原真实物理规律，更接近“世界模拟”，而非具备完备的状态预测能力。

在四类路径之外，智源研究院正在探索第五种可能：基于统一潜空间的全模态表征融合。这也是悟界系列一以贯之的技术思路——将文字、图像、视频等模态压缩至同一语义空间原生训练，未来将进一步纳入更多物理世界模态，通过统一潜空间表征真实世界状态，解码为动作、画面等下游输出。王仲远判断，全模态潜空间建模很可能是世界模型真正的突破路径。

本届大会上，智源研究院披露正在研发中的世界模型悟界·Physis 0.1，其核心是实现物理空间建模与下一个物理状态预测。作为科研机构，智源选择将尚在研发阶段的技术路线向行业开放，后续将持续分享训练进展，模型完成后将全面开源。“世界模型整体仍处于早期阶段，技术路径尚未收敛，数据体系、评测框架都远未成熟，需要全行业扎扎实实共同探索。”王仲远说。

智能体走向场景化具身智能锚定长期突破

如果说世界模型是面向未来的基座探索，智能体便是当下技术落地的核心载体。在王仲远看来，智能体是将基座大模型从聊天工具拓展为执行工具的关键架构，本质是大模型能力的场景化延伸，因此产业端是主导力量。

机器人正在剥小龙虾（央广网记者朱冠安摄）

智源的智能体布局始终紧扣自身科研定位，四款新品均围绕前沿研究与实际场景结合展开：与安贞医院联合研发的心脏磁共振辅助诊断智能体，处理多模态医疗数据的效率较人工提升30倍，诊断能力达到顶尖心血管医生水平，有望推动优质医疗能力下沉；面向科研场景的自主研究智能体，可独立完成信息搜集、方法设计、实验验证到报告撰写的全流程，背后依托自研的悟格·AREX基座，能力比肩万亿参数级旗舰系统；面向参会场景的Soul Agent听会智能体，可实现数字分身同步听会、实时提炼观点，还内置专家数字分身供观众互动，将开放2000个免费体验名额，附赠1亿Token使用额度。

针对国内智能体产品体验与海外的差距，王仲远给出明确判断：中国智能体的工程架构与国际顶尖水平并无差距，产业落地是国内强项，体验差异的核心来自底层基座模型的能力差距，而非架构设计本身。

与数字世界的智能体相对应，面向物理世界的具身智能同样是本届大会的核心热点。王仲远介绍，过去一年智源已构建起全栈具身智能技术体系，发布跨本体的悟界·RoboBrain具身大脑与Robo OS系统，推动国产模型、国产芯片真正跑在国产机器人本体上，而非仅停留在云端演示。在他看来，当前具身产业已开始在特定场景落地，但整体仍是长周期赛道，短期的流水线操作无法支撑通用能力的突破。世界模型尤其是以物理状态预测为核心的基座模型，才是具身智能实现通用泛化的关键突破口。

AI渗透神经科学与生命科学拓展技术边界

除了通用人工智能的主线，智源正在将大模型范式向生命科学、神经科学等交叉领域延伸，形成新的科研增长极。

本届大会正式发布悟界·Brainμ 1.0，这是智源将Next Token Prediction范式拓展至神经科学领域的标志性成果。通过训练Brain Tokenizer，研究团队实现脑信号与文字、视觉、音频等通用模态的对齐与双向转换，首次证明跨个体、跨物种的脑信号存在共同的表征密码。该模型覆盖人脑、小鼠、猕猴3个物种，11种神经信号模态，可应用于梦境还原、睡眠机制研究、神经疾病诊疗等场景。

配套发布的还有全球最大的AI-Ready神经科学数据集与数据平台BrainToken，数据规模超1万亿Token，较现有主流基础模型的神经数据提升近10倍，科研人员可直接申请访问并开展研究。目前智源已联合32家科研机构与医院推进相关合作，与清华大学联合开展的记忆与睡眠调控机制研究已登上《Science》正刊，与宣武医院合作推进阿尔茨海默病的个性化早期筛查与诊疗。

在AI for Science方向，悟界·OpenComplex将升级至2.5版本，单一模型覆盖制药四大关键步骤，可精确解析与阿尔茨海默病成因相关的内在无序蛋白（IDP）灵活构象，系统性赋能创新药物研发全链路。加上此前落地的安贞智源AI心脏医院，智源正在形成从基础科研到临床场景的生命科学AI布局。

开源底座、人才培养与安全治理并行

技术突破离不开产业生态与人才体系的支撑。王仲远表示，作为非营利性新型研发机构，智源始终坚持“不与高校争名，不与企业争利”的定位，聚焦高校无力做、企业不愿做的前沿无人区科研，宽容失败也鼓励成果转化。过去数年，智源已孵化出多家具身智能、大模型领域的行业头部企业，科研成果自然落地为产业价值，这一定位也让智源能够在底层生态、人才培养、安全治理等公共领域持续投入。

在基础软硬件生态层面，智源联合开源社区共建的众智FlagOS已更新至2.1版本，是目前全球覆盖芯片种类最多的智算系统软件栈。其核心价值是解决“M个模型适配N种芯片”的行业痛点，通过统一算子库、编译器与通信库，大幅降低大模型的跨芯片适配成本。目前FlagOS算子数量已达600余个，可实现DeepSeek、千问等主流大模型的多芯片快速适配，生态合作伙伴超80家。

面向更长远的未来，本届大会首次设立AI Native教育论坛，邀请人大附中校长、不同年龄段的学生与研究者同台，探讨AI时代的教育模式变革与下一代人才培养。在王仲远看来，人工智能将深刻改变未来的教育形态与人才能力需求，提出问题的能力、与AI协作的能力将变得至关重要。智源希望以论坛为起点，持续推动全社会对AI时代教育的思考与探索。

针对日益凸显的AI安全问题，王仲远表示，如今的AI安全已不再是远期的科幻畅想，而是迫在眉睫的现实挑战——智能体绕过安全机制、网络安全风险、生物安全隐患都已显现。这些问题无法靠单一机构解决，需要产业链升级、跨领域协作与政策法规配套共同推进，帮助社会平稳过渡技术变革期。

王仲远认为，世界模型的真正成熟至少还需要3到5年的持续迭代，可能会遭遇长期的技术瓶颈；而AI Coding将率先重构数字世界，带来产业形态与组织模式的深层变化。作为行业前沿的探索者，智源始终选择走在技术无人区，给年轻人挑大梁的机会，以开源开放带动全行业进步。本届智源大会不仅是一场技术成果的展示，更是一次行业共识的凝聚。当喧嚣褪去，下一代人工智能的突破，一定是建立在对物理世界本质的扎实探索之上。

编辑:阮修星

热榜