1月22日,百度正式发布并上线原生全模态大模型“文心大模型5.0”。该模型参数规模达到2.4万亿,采用原生全模态统一建模技术,具备跨文本、图像、音频、视频等多种模态的理解与生成能力。目前,个人用户可通过文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台调用。

根据百度公布的信息,在涵盖语言与多模态理解的40余项权威基准综合评测中,文心5.0正式版的能力已超越Gemini-2.5-Pro、GPT-5-High等国际先进模型,稳居全球第一梯队;其图像与视频生成能力亦达到垂直领域专精模型水平,整体处于全球领先地位。此前,百度文心助手月活跃用户已突破2亿。

技术突破:原生全模态与高效架构

百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜在发布会上强调,文心5.0采用了与业界常见的“后期融合”不同的技术路线。其通过统一的自回归架构,对文本、图像、视频、音频等多源数据进行原生全模态联合训练,实现了多模态特征在统一框架下的深度融合与协同优化,从而支持原生的统一理解与生成。

在模型结构上,文心5.0采用了超大规模混合专家(MoE)结构,并具备超稀疏激活特性,激活参数比例低于3%。这一设计在保持模型强大能力的同时,显著提升了推理效率。此外,模型通过基于大规模工具环境合成长程任务轨迹数据,并采用端到端多轮强化学习训练,进一步提升了其智能体与工具调用能力。

应用落地:让模型在真实场景中创造价值

百度应用模型研发部负责人贾磊指出:“应用模型的价值不在模型里,而在应用里。”百度基于文心基础大模型,构建了面向产品级快速落地的矩阵模型(如文心Lite模型、视频大模型、语音大模型)以及面向垂直场景的专精模型(如搜索、电商、数字人及行业大模型)。

贾磊重点介绍了三项前沿应用技术突破:

基于声音Token的端到端合成大模型:通过创新的声音表征与建模方式,实现高质量语音合成。

5分钟超越真人的直播技术:仅需目标音色的少量样本,即可合成出富有情绪、节奏与感染力的带货语音,效果超越真人。

实时交互数字人技术:采用文本、语音、视频三态Token联动架构,实现流式控制与低延迟、高表现力的实时交互。此前引发关注的“百度罗永浩数字人”即基于此技术开发。

平台支撑:千帆助力产业高效集成

为加速大模型在产业中的落地,百度千帆平台提供了全面支持。据平台产品负责人张婷介绍,千帆不仅提供文心5.0及超过150种全场景先进模型服务,还集成了包括百度AI搜索在内的众多工具与完整Agent开发工具链,结合企业级数据管理与服务,为企业打造全周期、多场景的稳定运行环境,大幅降低Agent应用创新门槛。目前,千帆平台上已累计开发超过130万个Agents,其特色工具“百度AI搜索”日均调用量已突破千万次。

全栈布局:深化“芯云模体”生态闭环

此次文心5.0的发布,标志着百度在推进AI技术深入真实行业与复杂场景方面迈出关键一步。作为国内大模型领域的先行者,百度已形成从“芯”(自研AI芯片)到“云”(百度智能云),再到“模”(大模型)和“体”(智能体应用)的全栈自研技术生态闭环,持续探索并输出赋能千行百业的AI解决方案。

在全球AI行业从技术快速发展转向深度应用的关键阶段,百度凭借文心大模型5.0在原生全模态与超大规模参数上的突破,正致力于推动AI超越以对话为主的形式,更深入地融入现实世界,创造实际价值。(来源:百度)

(注:此文属于央广网登载的商业信息,文章内容不代表本网观点,仅供参考。)

编辑:何智康
更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。
长按二维码
关注精彩内容