科研团队联合攻关(西安电子科技大学供图)
在2024年度中国电子学会科学技术奖励大会上,西安电子科技大学网络与信息安全学院马卓教授团队牵头完成的“开放环境下智能模型数据安全关键理论与技术”项目获自然科学二等奖,该项目在多方数据安全共享、异常数据逆向追溯与修复等方面实现突破,有效减轻企业数据共享的隐私泄露风险。
安全风险的“不确定性”
提起“开放环境下的智能模型”,不少人或许感到陌生,但对它在生活中的应用却再熟悉不过,比较典型的有金融风控、智能无人机、自动驾驶系统、智能家居等。
马卓说:“通俗讲就是人工智能模型,但开放环境中,数据来源多样、节点分布松散、系统边界不固定,攻击者容易乘虚而入。”在实际应用中,数据交互、模型推理等环节,都可能被攻击者窃取隐私、污染数据,导致出现隐私滥用、模型误导等问题。
作为被攻击目标,模型面临的风险不只“某一个”,而可能分散在数据、建模、部署各流程,攻击类型也更复杂多样。比如,数据来源多样,意味着攻击方可以伪装成一个普通的数据提供者,在模型构建训练数据集的过程中,植入“问题”数据,攻击形式则可能通过某个数据采集传感器发起,也可能通过某一个机构(有时机构可信,但可能存在内部“作恶者”)发起。
一场AI的攻防战就这样打响,在没有硝烟的战场中,马卓及其团队的工作,就是从全流程角度防御风险:发现它、解决它!
一般而言,防御有“事前”“事中”和“事后”三个阶段:在模型训练前的数据集构建阶段,要扫描定位异常数据;在模型训练中,则引入能够抵御此类“问题”数据的鲁棒性学习方法,简单来说,有点像人体的免疫力,可以构建起人体的“防火墙”,使模型更加“健壮”“皮实”“耐造”,关键时候不“掉链子”,从而使机器学习模型在面对异常数据、噪声干扰、分布偏移等不利条件时,仍能保持稳定性和有效性的能力;在模型完成训练后,则对模型进行扫描并消除“问题”数据对于模型的影响。
“做这些,还是为了实现模型‘高可用’”,马卓说:“‘不可用’的安全其实没有用,安全也要追求低成本、高效率,提升模型性能”。
保证安全也要追求效率
“姚氏百万富翁问题”中所假设的情景,在多个行业都存在。以金融风控为例,建模时常常要对A银行和B银行数据求交集,此过程可能存在隐私泄露风险,传统加密方法复杂度过高,比如无法很好处理非交集的数据(删除可能使隐私暴露),会产生较冗长的数据,导致模型训练变慢,难以规模化应用。
马卓带领团队提出的系列超轻量级安全计算方法,支持包括多方数据加密、线性/非线性函数安全计算等在内的多种数据安全计算操作。他解释道:“简化来说,就是想办法去除冗余,让有限数据参与训练,同时提高非线性运算(如对数、指数、开方运算等)算子的速度,让前期数据处理变得高效安全。”
在数据处理之外,马卓团队的项目研究,还瞄准模型部署后的异常数据快速定位,和模型的高效修复问题,前者是如何更快地确定异常数据,后者则像对异常数据“动手术”,实现精准清除,保证模型“健康”运行。
异常数据,通常分数据投毒和后门植入两大类型。前者相对容易理解,后者则是一种形象说法,指的是攻击者通过污染数据或修改架构等方法,在模型中注入的隐藏行为,就像一扇可以通往模型的“门”,平日里,它就像“卧底”“间谍”一样,保持静默,但一旦被“触发”,就可能导致模型出现异常行为。
马卓说,“以前的方法是穷举,把所有数据‘搂’一遍,我们现在则是通过类似于近似计算的方法找到它们,执行效率可提升两个数量级以上”。
发现数据异常,接下来就是把它们从模型中“请”出去。之所以要“请”,是因为异常数据很“狡猾”,不仅“隐身”技能强,而且嵌套在模型中,如果把模型比作大脑,异常数据就可能“藏”在脑神经细胞,处理这些数据,其复杂度不亚于有些神经外科手术。
所以,“收拾”这些异常数据,动作要“小心翼翼”,“精准”拿捏,剔除时不能“把小孩连同洗澡水一起泼掉”。毕竟,销毁模型意味着推倒重来、前功尽弃,部署机构花费的很多心血,连带财力物力等都付诸东流。
在寻找破题思路和方法时,马卓表示,“要有泛化能力、普适性,不能用到这里很‘灵’,放到其他地方失效”。就这样,经过团队努力攻关,“基于梯度上升的模型遗忘策略”方案被提出来,它的特点,是能在不重新训练模型的情况下,精准消除异常数据对于模型决策的干扰。
现实中,大模型呈现给人的“博闻强记”“深度学习”能力,可以说数据为其提供了“燃料”和动力。训练模型的关键在于让模型“记住”数据及其特征,模型后门产生的核心原因,在于它“记住”了后门数据,而且后门数据不仅包含问题数据特征,也包含一定的正常数据特征。
“我们反其道而行之,让模型学会‘遗忘’,不能多也不能少,恰到好处地选择性失忆,把异常数据从模型中‘撤销’掉”,马卓说。
那么,何为“梯度上升”?了解它之前,不妨“隆重”请出它的“孪生兄弟”——“梯度下降”,一种当下包括神经网络在内,大部分智能模型经常采用的模型训练策略。
从数学角度看,梯度下降法,就是沿梯度下降的方向求解极小值。假设一个人正在山顶,担心天气突变或夜路危险,需要尽快下山,在保证安全的前提下,一个好的方法就是以当前位置为基准,尽量沿坡度最陡的地方往下走,为实现整体最优,每隔一段距离要重新校准定位坡度,继续下山。本质上,梯度下降法体现着一种模型训练的优化思维。
马卓说:“梯度上升是受到梯度下降策略的启发,是一种逆向思维,和模型训练的过程恰恰相反。”
除了能为模型“排毒”外,这种方法还能像人们使用社交软件“撤回”信息一样,给模型部署机构或平台,提供“撤回数据”的选择,尤其在多方参与数据共享的模型中,这既保障了部分参与方的数据隐私权,也能在某个机构退出合作时,最大程度减少数据“撤出”对模型正常运行的影响。
聚焦前沿瞄准“真问题”
回过头看获奖项目,马卓认为“发现了一个比较有意思的领域”。在团队研究成果发表前,国际上相关文章并不多,如今学术文章多起来了,对团队成果的引用随之增多,这让他进一步意识到科研引领的重要性。
如今,马卓带领的团队,由多名长期从事人工智能安全、密码学与隐私计算方向的青年骨干教师组成,涵盖算法理论、系统架构与工程实现等多层次研究力量,并吸引多名博士后和研究生共同参与。近年来,团队产出了一系列具有自主知识产权的创新成果,广泛应用于实际场景,产生了良好的社会影响和行业示范效应。
“像一个辅导员,我也做学生思想工作,比如通过新生研讨课接触到低年级本科生,感兴趣的学生就会进入团队”,马卓笑着说,“还是去调动学生积极性,让学生知道读大学、研究生的意义和目的,学会正向地‘卷’自己”。
在马卓看来,考试对学生只是基本要求,想要“出类拔萃”,就要“学别人不能学,做别人不能做,见过很多名校优秀学生,只要定好方向,西电学生一点也不差”。
因此,马卓会根据个人特点,给团队青年教师提建议,有些老师适合做科研,有些老师可能在教学上能出彩,而有的博士生对市场、产品很敏感,就很适合做产业创新。
马卓说:“我们团队也有年轻人到企业交流,获奖项目取得的成果,得益于产学研合作中的启发,要想好做什么样的产品,推动技术与市场接壤。”
在产学研用方面,马卓团队积累了较为系统的协同创新经验,通过与企业沟通,更多来自企业的实际需求被“引进来”,科研方向更加聚焦和明确;同时,团队的老师逐渐“走出去”,到企业与优秀工程师合作,推动成果落地应用。
当前的网络信息安全,不仅需要涵盖从算法、系统到数据的隐私安全全栈防护,还需应对开放环境下的未知威胁与高级对抗,体现出安全与智能深度融合的趋势。
在新的时代趋势下,马卓认为,“要构建‘科研引导+工程实践+交叉融合’的人才培养机制,聚焦重大需求、前沿方向,瞄准真问题,同时要打造多元平台,通过项目驱动、企业合作、国际交流,培养兼具理论深度和实践能力的复合型创新人才”。(来源:西安电子科技大学)

关注精彩内容