中关村建起人工智能“防火墙”

一堵人工智能“防火墙”在中关村建起。日前，北京前瞻人工智能安全与治理研究院发布了前瞻人工智能安全评估体系与基座平台，包含人工智能安全评估框架、技术工具和价值参考等。

随着技术飞速迭代，人工智能的安全风险与日俱增，构建完善的人工智能安全评估与治理体系刻不容缓。此次发布的“前瞻安全基准”安全评估体系，不局限于传统安全评估的单一维度，而是在根植基础安全的基础上，延伸至具身智能安全、科学智能安全、社会安全、环境安全、灾难性与生存性风险五大维度。

该院院长曾毅介绍，这套体系可覆盖教育科研、医疗健康、金融经济、信息传媒、工业基建、政务民生等关键领域，重点聚焦评估和解决隐私与数据保护、滥用恶用、虚假信息防范等难题。

“前瞻·灵御”人工智能安全攻防平台通过模拟真实攻防场景，实现对模型安全性能的全面“体检”。目前，该平台支持60余种主流大模型、20余种攻击方法和10余种防御机制。

“测试发现，近几年的大模型在安全性上并没有明显提升，平台对部分新模型的攻击成功率甚至更高。”曾毅直言，人工智能模型构筑防御工事并不一定要重新训练，部署在线推理阶段的安全护栏，就能显著提升模型安全水平。而灵御平台就是通过提供针对性的防御方案和“加固”建议，实现主动防御、精准防护。

“前瞻·灵度”平台同步搭建，关注点侧重于对人工智能伦理进行智能评估与价值校准。它能在6个维度、90个细分类别中，对上百个大模型进行实时动态监控和测试。“灵度平台集成了以中国价值观为核心的大规模中文价值语料库，累计定义了25万余条规则。”曾毅说，这能有效解决现有伦理评估中文价值适应性不足、边界覆盖不全的问题。

人工智能安全评估体系和基座平台，不仅解决了“评什么、怎么评”的疑问，还回答了“怎样攻、如何防”，并明确了人工智能安全将“向何处去”的价值导向。（记者刘苏雅）

编辑:朱冠安

热榜