南开大学
计算机学院

数据库与信息系统研究室

数据库与信息系统研究室师生论文被国际学术会议NeurIPS 2022录用

9月15日,中国计算机学会(CCF)推荐的A类国际学术会议NeurIPS 2022论文接收结果公布。数据库与信息系统研究室有1篇论文被录用。神经信息处理系统大会(Neural Information Processing Systems,简称NeurIPS )由 NeurIPS 基金会主办,是机器学习和计算神经科学领域的顶级国际会议。NeurIPS 2022录用率为25.6%。

以下为论文介绍:

论文题目:BadPrompt: Backdoor Attacks on Continuous Prompts

作者:蔡祥睿,许海栋,徐思涵,张莹,袁晓洁

通讯作者:徐思涵

录用会议/期刊:NeurIPS

论文概述:

近年来,提示学习范式得到了广泛的研究关注。它在几个NLP任务上取得了最先进的性能,特别是在few-shot场景。在提升下游任务的同时,很少有相关的工作报告调查基于提示的模型的安全问题。本文首次对连续提示学习模型的后门攻击脆弱性进行了研究。我们观察到,少样本场景对提示学习的后门攻击提出了巨大的挑战,限制了现有NLP后门方法的可用性。为了应对这一挑战,我们提出了一个轻量级的任务自适应算法BadPrompt来后门攻击连续型提示学习。具体而言,BadPrompt首先生成候选触发器,这些触发器要求对目标标签指示性强且与非目标样本相差较大。然后,BadPrompt通过自适应触发器优化模块选择最有效且隐蔽的触发器。我们在五个数据集和两个连续型提示学习模型上评估BadPrompt的性能。实验表明,BadPrompt可有效攻击连续提示模型,同时对无毒测试样本保持较高的准确率,大大超过了基线模型。该工作源代码已公开在Github (https://github.com/papersPapers/BadPrompt)。

分享到:
Baidu
map