近日,实验室联合新华三、河南师范大学等单位在网络空间安全领域知名期刊《Cybersecurity》(CCF T1类)在线发表了题为"Ctta:a novel chain-of-thought transfer adversarial attacks framework for large language models"的研究性文章,信息工程学院(人工智能学院)硕士生岳欣馨为论文**作者,张志勇教授为论文通讯作者。
随着大语言模型(Large Language Models, LLMs)的应用范围与深度不断拓展,其安全性问题也受到广泛关注。对抗样本攻击作为人工智能领域的一种代表性攻击手段,LLMs相较于小模型面向该攻击具有更优的对抗鲁棒性。LLMs特有的涌现能力为一种新型攻击手段提供了可能,亟需进一步探索,以发现LLMs在应对传统对抗攻击时的潜在安全风险。
针对大模型涌现能力带来的潜在对抗攻击威胁问题,作者提出了一种基于思维链的大模型对抗迁移攻击框架(Chain-of-Thought Transfer Adversarial attacks, CTTA)。作者集成OpenAttack和PromptBench框架,利用思维链(Chain-of-Thought, CoT)技术和提示工程技术,设计生成零样本和小样本对抗性提示(如图1)。实验结果表明(如图2),CTTA方法在所有模型和任务上的攻击成功率均高于现有研究结果,这说明CTTA能够有效普遍削弱LLMs的对抗鲁棒性。对于GPT-J-6B模型,CTTA方法在所有任务上显著提高了ASR,尤其是在MNLI和RTE任务上超过90%。
图 1 CTTA框架图
图2 CTTA实验结果
论文链接:https://cybersecurity.springeropen.com/articles/10.1186/s42400-024-00338-1