百度发布文心大模型5.0

1月22日，百度正式发布并上线原生全模态大模型“文心大模型5.0”。该模型参数规模达到2.4万亿，采用原生全模态统一建模技术，具备跨文本、图像、音频、视频等多种模态的理解与生成能力。目前，个人用户可通过文心APP、文心一言官网体验，企业与开发者可通过百度千帆平台调用。

根据百度公布的信息，在涵盖语言与多模态理解的40余项权威基准综合评测中，文心5.0正式版的能力已超越Gemini-2.5-Pro、GPT-5-High等国际先进模型，稳居全球第一梯队；其图像与视频生成能力亦达到垂直领域专精模型水平，整体处于全球领先地位。此前，百度文心助手月活跃用户已突破2亿。

技术突破：原生全模态与高效架构

百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜在发布会上强调，文心5.0采用了与业界常见的“后期融合”不同的技术路线。其通过统一的自回归架构，对文本、图像、视频、音频等多源数据进行原生全模态联合训练，实现了多模态特征在统一框架下的深度融合与协同优化，从而支持原生的统一理解与生成。

在模型结构上，文心5.0采用了超大规模混合专家（MoE）结构，并具备超稀疏激活特性，激活参数比例低于3%。这一设计在保持模型强大能力的同时，显著提升了推理效率。此外，模型通过基于大规模工具环境合成长程任务轨迹数据，并采用端到端多轮强化学习训练，进一步提升了其智能体与工具调用能力。

应用落地：让模型在真实场景中创造价值

百度应用模型研发部负责人贾磊指出：“应用模型的价值不在模型里，而在应用里。”百度基于文心基础大模型，构建了面向产品级快速落地的矩阵模型（如文心Lite模型、视频大模型、语音大模型）以及面向垂直场景的专精模型（如搜索、电商、数字人及行业大模型）。

贾磊重点介绍了三项前沿应用技术突破：

基于声音Token的端到端合成大模型：通过创新的声音表征与建模方式，实现高质量语音合成。

5分钟超越真人的直播技术：仅需目标音色的少量样本，即可合成出富有情绪、节奏与感染力的带货语音，效果超越真人。

实时交互数字人技术：采用文本、语音、视频三态Token联动架构，实现流式控制与低延迟、高表现力的实时交互。此前引发关注的“百度罗永浩数字人”即基于此技术开发。

平台支撑：千帆助力产业高效集成

为加速大模型在产业中的落地，百度千帆平台提供了全面支持。据平台产品负责人张婷介绍，千帆不仅提供文心5.0及超过150种全场景先进模型服务，还集成了包括百度AI搜索在内的众多工具与完整Agent开发工具链，结合企业级数据管理与服务，为企业打造全周期、多场景的稳定运行环境，大幅降低Agent应用创新门槛。目前，千帆平台上已累计开发超过130万个Agents，其特色工具“百度AI搜索”日均调用量已突破千万次。

全栈布局：深化“芯云模体”生态闭环

此次文心5.0的发布，标志着百度在推进AI技术深入真实行业与复杂场景方面迈出关键一步。作为国内大模型领域的先行者，百度已形成从“芯”（自研AI芯片）到“云”（百度智能云），再到“模”（大模型）和“体”（智能体应用）的全栈自研技术生态闭环，持续探索并输出赋能千行百业的AI解决方案。

在全球AI行业从技术快速发展转向深度应用的关键阶段，百度凭借文心大模型5.0在原生全模态与超大规模参数上的突破，正致力于推动AI超越以对话为主的形式，更深入地融入现实世界，创造实际价值。（来源：百度）

（注：此文属于央广网登载的商业信息，文章内容不代表本网观点，仅供参考。）

编辑:何智康

热榜