近日,计算机图形学与多媒体领域国际顶级会议The 30th ACM International Conference on Multimedia(ACM MM 2022)在葡萄牙里斯本举行,该会议被中国计算机学会(CCF)列为A类会议。网信院陈晓峰教授团队的最新研究成果“Purifier: Plug-and-play Backdoor Mitigation for Pre-trained Models Via Anomaly Activation Suppression” 被会议论文集收录,并作大会报告。
该研究成果第一作者为西电睿云数据安全团队张肖瑜副教授,曾获2020年中国中文信息学会拓尔思优秀博士论文奖。
该论文聚焦于深度学习预训练模型中的后门防御工作。后门攻击通常发生在非完全受控的训练过程场景,给预测模型的安全性造成潜在威胁。本文提出基于异常激活抑制的后门防御方法Purifier。从模型中间层特征表示给出预训练模型在面对后门样本和干净样本的可视化差异表现,直观揭示了后门样本在中间层表征出现异常图式的本质问题,进一步通过动态优化更新细粒度单元所对应的权值达到抑制神经元异常激活的效力,从而抵御多种未知类型后门攻击。对比现有SOTA后门防御方法,Purifier无需访问原始预训练数据且仅要求使用少量(约1%)下游任务干净数据,在6种主流攻击上的实验结果表明Purifier具有高效性、适用性强和可解释性等优点。此外,Purifier具有即插即用特性,灵活适配于任何网络结构的预训练模型,解决了后门防御工作常见的算法复杂度高且算法适配单一等问题。
Purifier 框架
近年来,网络与信息安全学院积极开拓安全交叉领域,鼓励学院师生以兴趣为原动力,积极探索新兴研究领域。该成果是睿云数据安全团队在人工智能安全领域取得的重要成果之一,助力学院科研全面发展。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3503161.3548065