央广网北京4月25日消息(记者 朱冠安)4月24日,DeepSeek发布DeepSeek-V4-Pro 1.6T旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B高效模型(2840亿)。由智源研究院牵头研发的众智FlagOS第一时间对两个“巨无霸”模型进行全量适配,已经完成DeepSeek-V4-Flash在8款以上AI芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正在推进DeepSeek-V4-Pro模型在多个芯片的迁移适配,后续即将开源。
记者了解到,FlagOS将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4-Flash代码框架中,开发者加载模型时,底层优化代码自动生效,无需手动添加任何FlagOS初始化代码。同时,基于FlagRelease直接提供了多芯片版本的DeepSeek-V4-Flash-FlagOS模型版本,标准化Docker镜像+一键加速命令,解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。
智源研究院相关负责人介绍,围绕DeepSeek-V4-Flash多芯适配,此次FlagOS系统软件技术栈突破了三大关键技术:FlagGems全算子替代(实现多芯片统一适配)、为o-group采用独立张量并行策略解锁更多低显存场景,以及“FP4+FP8混合精度”的原生权重到FP8/BF16的精度路径转换。这三项关键技术,使得DeepSeek-V4能够在当前各种厂商的主流AI芯片上稳定运行,而非仅限于支持FP4和大显存的少数高端AI加速卡。
长按二维码关注精彩内容





