智源FlagOS完成DeepSeek-V4超八款芯片适配含多款国产芯片

央广网北京4月25日消息（记者朱冠安）4月24日，DeepSeek发布DeepSeek-V4-Pro 1.6T旗舰模型（1.86万亿参数）及DeepSeek-V4-Flash 284B高效模型（2840亿）。由智源研究院牵头研发的众智FlagOS第一时间对两个“巨无霸”模型进行全量适配，已经完成DeepSeek-V4-Flash在8款以上AI芯片上的全量适配与推理部署，包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等芯片。FlagOS 同时正在推进DeepSeek-V4-Pro模型在多个芯片的迁移适配，后续即将开源。

记者了解到，FlagOS将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4-Flash代码框架中，开发者加载模型时，底层优化代码自动生效，无需手动添加任何FlagOS初始化代码。同时，基于FlagRelease直接提供了多芯片版本的DeepSeek-V4-Flash-FlagOS模型版本，标准化Docker镜像+一键加速命令，解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。

智源研究院相关负责人介绍，围绕DeepSeek-V4-Flash多芯适配，此次FlagOS系统软件技术栈突破了三大关键技术：FlagGems全算子替代（实现多芯片统一适配）、为o-group采用独立张量并行策略解锁更多低显存场景，以及“FP4+FP8混合精度”的原生权重到FP8/BF16的精度路径转换。这三项关键技术，使得DeepSeek-V4能够在当前各种厂商的主流AI芯片上稳定运行，而非仅限于支持FP4和大显存的少数高端AI加速卡。

编辑:庞婷

热榜