央广网北京6月13日消息(记者 朱冠安)从大模型到多模态,再到世界模型,人工智能的每一次范式跃迁,都伴随着概念热潮与技术沉淀的交织。

第八届北京智源大会现场(央广网记者 朱冠安 摄)

6月12日,第八届北京智源大会在北京开幕。北京智源人工智能研究院(简称“智源”或“智源研究院”)院长王仲远在预热采访中,系统性拆解了人工智能的下一程演进逻辑。在技术概念快速迭代、行业热潮与认知误区交织的当下,王仲远披露智源在基座模型、神经科学、智能体等领域的一系列原创成果,并厘清世界模型的核心定义与技术路径,勾勒出人工智能从数字世界迈向物理世界的完整演进路线图。

世界模型成下一代AI基座 全模态潜空间建模可能是世界模型真正的突破路径

人工智能的范式迭代,正从“预测下一个Token”迈向“预测下一个物理状态”。在王仲远看来,这是大模型发展至今水到渠成的必然方向。从早年的大语言模型处理文本,到多模态模型融合图像、音频,再到如今需要解决真实物理空间的时空规律与常识交互,人工智能正在跨越数字与物理的边界。

机器人正在套垃圾袋(央广网记者 朱冠安 摄)

智源研究院是国内最早布局世界模型的科研机构。早在2023年大语言模型热度最高时,智源大会便引入人工智能领域专家杨立昆关于世界模型的前沿观点;2024年明确提出“大语言模型—多模态大模型—世界模型”的技术演进路径;随着悟界·Emu3、Emu3.5相继发布,多模态世界模型的技术路径逐步落地。到2026年,智源明确提出,世界模型有望成为下一代人工智能基座模型。

针对当前行业内世界模型概念泛化、误用的现状,王仲远将现有技术路线划分为四大类:以语言为中心的世界模型(含大语言模型、VLM、VLA)、以像素为中心的世界模型(以视频生成为代表)、以三维结构为中心的世界模型,以及以视觉表征为轴心的世界模型。他特别澄清,视频生成模型并不等同于世界模型——其训练目标并非还原真实物理规律,更接近“世界模拟”,而非具备完备的状态预测能力。

在四类路径之外,智源研究院正在探索第五种可能:基于统一潜空间的全模态表征融合。这也是悟界系列一以贯之的技术思路——将文字、图像、视频等模态压缩至同一语义空间原生训练,未来将进一步纳入更多物理世界模态,通过统一潜空间表征真实世界状态,解码为动作、画面等下游输出。王仲远判断,全模态潜空间建模很可能是世界模型真正的突破路径。

本届大会上,智源研究院披露正在研发中的世界模型悟界·Physis 0.1,其核心是实现物理空间建模与下一个物理状态预测。作为科研机构,智源选择将尚在研发阶段的技术路线向行业开放,后续将持续分享训练进展,模型完成后将全面开源。“世界模型整体仍处于早期阶段,技术路径尚未收敛,数据体系、评测框架都远未成熟,需要全行业扎扎实实共同探索。”王仲远说。

智能体走向场景化 具身智能锚定长期突破

如果说世界模型是面向未来的基座探索,智能体便是当下技术落地的核心载体。在王仲远看来,智能体是将基座大模型从聊天工具拓展为执行工具的关键架构,本质是大模型能力的场景化延伸,因此产业端是主导力量。

机器人正在剥小龙虾(央广网记者 朱冠安 摄)

智源的智能体布局始终紧扣自身科研定位,四款新品均围绕前沿研究与实际场景结合展开:与安贞医院联合研发的心脏磁共振辅助诊断智能体,处理多模态医疗数据的效率较人工提升30倍,诊断能力达到顶尖心血管医生水平,有望推动优质医疗能力下沉;面向科研场景的自主研究智能体,可独立完成信息搜集、方法设计、实验验证到报告撰写的全流程,背后依托自研的悟格·AREX基座,能力比肩万亿参数级旗舰系统;面向参会场景的Soul Agent听会智能体,可实现数字分身同步听会、实时提炼观点,还内置专家数字分身供观众互动,将开放2000个免费体验名额,附赠1亿Token使用额度。

针对国内智能体产品体验与海外的差距,王仲远给出明确判断:中国智能体的工程架构与国际顶尖水平并无差距,产业落地是国内强项,体验差异的核心来自底层基座模型的能力差距,而非架构设计本身。

与数字世界的智能体相对应,面向物理世界的具身智能同样是本届大会的核心热点。王仲远介绍,过去一年智源已构建起全栈具身智能技术体系,发布跨本体的悟界·RoboBrain具身大脑与Robo OS系统,推动国产模型、国产芯片真正跑在国产机器人本体上,而非仅停留在云端演示。在他看来,当前具身产业已开始在特定场景落地,但整体仍是长周期赛道,短期的流水线操作无法支撑通用能力的突破。世界模型尤其是以物理状态预测为核心的基座模型,才是具身智能实现通用泛化的关键突破口。

AI渗透神经科学与生命科学 拓展技术边界

除了通用人工智能的主线,智源正在将大模型范式向生命科学、神经科学等交叉领域延伸,形成新的科研增长极。

本届大会正式发布悟界·Brainμ 1.0,这是智源将Next Token Prediction范式拓展至神经科学领域的标志性成果。通过训练Brain Tokenizer,研究团队实现脑信号与文字、视觉、音频等通用模态的对齐与双向转换,首次证明跨个体、跨物种的脑信号存在共同的表征密码。该模型覆盖人脑、小鼠、猕猴3个物种,11种神经信号模态,可应用于梦境还原、睡眠机制研究、神经疾病诊疗等场景。

配套发布的还有全球最大的AI-Ready神经科学数据集与数据平台BrainToken,数据规模超1万亿Token,较现有主流基础模型的神经数据提升近10倍,科研人员可直接申请访问并开展研究。目前智源已联合32家科研机构与医院推进相关合作,与清华大学联合开展的记忆与睡眠调控机制研究已登上《Science》正刊,与宣武医院合作推进阿尔茨海默病的个性化早期筛查与诊疗。

在AI for Science方向,悟界·OpenComplex将升级至2.5版本,单一模型覆盖制药四大关键步骤,可精确解析与阿尔茨海默病成因相关的内在无序蛋白(IDP)灵活构象,系统性赋能创新药物研发全链路。加上此前落地的安贞智源AI心脏医院,智源正在形成从基础科研到临床场景的生命科学AI布局。

开源底座、人才培养与安全治理并行

技术突破离不开产业生态与人才体系的支撑。王仲远表示,作为非营利性新型研发机构,智源始终坚持“不与高校争名,不与企业争利”的定位,聚焦高校无力做、企业不愿做的前沿无人区科研,宽容失败也鼓励成果转化。过去数年,智源已孵化出多家具身智能、大模型领域的行业头部企业,科研成果自然落地为产业价值,这一定位也让智源能够在底层生态、人才培养、安全治理等公共领域持续投入。

在基础软硬件生态层面,智源联合开源社区共建的众智FlagOS已更新至2.1版本,是目前全球覆盖芯片种类最多的智算系统软件栈。其核心价值是解决“M个模型适配N种芯片”的行业痛点,通过统一算子库、编译器与通信库,大幅降低大模型的跨芯片适配成本。目前FlagOS算子数量已达600余个,可实现DeepSeek、千问等主流大模型的多芯片快速适配,生态合作伙伴超80家。

面向更长远的未来,本届大会首次设立AI Native教育论坛,邀请人大附中校长、不同年龄段的学生与研究者同台,探讨AI时代的教育模式变革与下一代人才培养。在王仲远看来,人工智能将深刻改变未来的教育形态与人才能力需求,提出问题的能力、与AI协作的能力将变得至关重要。智源希望以论坛为起点,持续推动全社会对AI时代教育的思考与探索。

针对日益凸显的AI安全问题,王仲远表示,如今的AI安全已不再是远期的科幻畅想,而是迫在眉睫的现实挑战——智能体绕过安全机制、网络安全风险、生物安全隐患都已显现。这些问题无法靠单一机构解决,需要产业链升级、跨领域协作与政策法规配套共同推进,帮助社会平稳过渡技术变革期。

王仲远认为,世界模型的真正成熟至少还需要3到5年的持续迭代,可能会遭遇长期的技术瓶颈;而AI Coding将率先重构数字世界,带来产业形态与组织模式的深层变化。作为行业前沿的探索者,智源始终选择走在技术无人区,给年轻人挑大梁的机会,以开源开放带动全行业进步。本届智源大会不仅是一场技术成果的展示,更是一次行业共识的凝聚。当喧嚣褪去,下一代人工智能的突破,一定是建立在对物理世界本质的扎实探索之上。

编辑:阮修星
更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。
长按二维码
关注精彩内容