北京启动医疗人工智能应用评测服务

央广网北京11月7日消息（记者阮修星）11月7日，北京市卫生健康委发布《关于开展医疗领域人工智能应用评测工作的通知》，正式向各企业、研究机构提供评测服务，这标志着北京的国家人工智能应用中试基地（医疗领域）对外服务能力正持续拓展和深化。

随着近年来人工智能技术的飞速进步，医疗AI正在加速向辅助医生，承担部分医生技术劳动的方向发展。如何坚持科技为民、科技向善，确保医疗AI应用的规范安全有效，成为公众关注和行业关心的问题。北京市卫生健康委在国家基地建设中专门设立医疗人工智能应用评测中心（以下简称“评测中心”），旨在建立医疗AI评测的制度体系与规范标准，依托首都高水平医院和专家队伍、高质量医疗数据，验证医疗AI的临床辅助决策能力和效果，筑牢医疗人工智能应用安全底线，同时助力医疗人工智能产品迭代优化。

由于医疗行为关乎公众生命健康，医疗AI的评测必须坚持高标准、严要求，至少具有以下三个方面的要求：

一是评测内容的全面性。医疗人工智能应用不仅要看“准确率”指标，从患者角度来说，还需要考虑到伦理和信息安全；从医生角度来说，除了准确的结果，更关注推理过程，也就是“为什么得出这个结论”。所以医疗人工智能应用要从“安全（合规伦理）、专业（医学知识）、实用（流程适配）”等多个角度进行评测。

二是评测数据的权威性。医疗领域的人工智能应用评测要用“真案例、真标准”，要用临床上真实的、有明确诊疗方案，甚至是一些罕见、疑难案例，还要参考国内外最新的诊疗指南去评测，才能区分出人工智能应用在严肃医疗场景下的真实差异。

三是评测结果的科学性。对医疗人工智能应用的评测，不能只看答案，还要对它的思考和答题过程进行评价，防止“蒙”对了结果，逻辑却错了。

针对上述这几个医疗领域人工智能应用评测的重点难点问题，北京市卫生健康委委托北京市卫生健康大数据与政策研究中心，配合医疗领域国家人工智能应用中试基地建设，联合全国重点医院与顶尖专家团队，拿出破题方案，打造北京医疗人工智能应用评测中心。

在评测内容上，评测中心专门建立了一套多维度考核标准，从百姓和医生最关心的角度出发，形成6个核心维度（医学合规伦理、医学循证与知识、通用辅助能力、专科诊疗质控管理、诊疗流程适配性、诊疗决策准确性）的评测指标体系，包含70多项具体评测任务，全面覆盖看“安全”，查有没有泄露隐私、有没有违背医学伦理；看“专业”，测会不会用最新的医学教材、诊疗指南；看“适用”，查是否符合医生的思考逻辑和日常工作流程；看“准确”，看AI诊断对不对，给的治疗建议合不合理。

在评测数据上，评测中心联合重点医院、科研机构及权威专家团队，用临床案例、国内外权威医学教材和最新临床诊疗指南，共同构建高质量评测数据集。权威医学教材确保基础知识扎实，临床诊疗指南保证与临床实践同步，典型案例覆盖常见病、罕见病及疑难病。“考题”由国内顶级专科高年资医师全程深度参与编撰与审核而成，确保评测的科学性和权威性。

在评测方法上，评测中心严格实施用户申请、系统评测、专家复核三个环节，系统根据应用类型自动匹配评测任务并生成评测报告，由临床专家进行复核。在计分方式上，除采用国际通用基础评测指标外，评测中心还创新引入基于人工智能的评分机制，也就是用一个“裁判模型”来判卷，综合“考生”的诊疗思路、推理逻辑、答题结果进行量化打分，避免只看最终结果的片面性。比如两款人工智能应用都诊断对了，评测系统会给推理逻辑更严谨、依据更充分的那款打更高分，确保评测结果客观公正、科学可信。

《通知》中还提到，本次评测服务是医疗领域国家人工智能应用中试基地首次提供对外评测服务，主要聚焦胸外科诊疗领域开展专项评测。评测结果将根据参评单位意愿适时公布，评测表现优秀的应用将优先纳入国家人工智能应用中试基地推广渠道，向各级医疗机构重点推荐。后续，评测中心将陆续开展更多医学领域的评测服务，覆盖内科、外科、儿科等专业领域，助力医疗人工智能产业健康发展，更好地服务人民群众健康需求。

编辑:朱冠安

热榜