11月30日,HAUST-HNU大模型与安全联合研究团队第36期组会在线召开。本次主题基于针对图提示学习的跨上下文后门攻击及可解释性增强的文本对抗防御技术。会议由河南师范大学荆军昌副教授主持。
河南科技大学2024级硕士研究生付宇汇报了有关“阴影投射:针对视觉语言模型的隐蔽式数据投毒攻击(Shadowcast)”的研究。该方法首创性地提出了一种针对VLM生成任务的隐蔽式数据投毒攻击,旨在利用VLM强大的语言能力实现观点操纵(Persuasion Attack)。Shadowcast 的核心在于构建视觉上良性匹配、特征上具有欺骗性的投毒样本对。具体来说,它通过投影梯度下降(PGD)算法生成投毒图像,使其在人类眼中看似目标概念,但在VLM视觉编码器的特征空间中却被拉向原始概念投毒文本则经过LLM润色,既与图像匹配又强烈暗示目标概念,从而实现Clean-label下的隐蔽攻击。

河南科技大学2024级硕士研究生袁梦颖于会议中汇报了题为《针对图提示学习的跨上下文后门攻击》的研究,该研究针对图提示学习(GPL)跨上下文场景的后门攻击研究空白,提出后门攻击方法CrossBA,通过“触发图优化绑定后门关联与特征隐蔽、嵌入对齐保证干净数据性能与GPL提示机制的深度协同”,在预训练阶段完成后门植入,经5种跨场景、2类GPL方法及2类任务的实验验证,其攻击成功率(ASR)≥85%且干净数据性能损失(AD)≤6%,显著优于现有基线,同时通过模块消融验证了核心设计的必要性,填补了跨上下文 GPL 安全领域的研究缺口。

在交流讨论环节,与会师生主要围绕两项研究的创新性、目前研究方向的相关性及对后续科研工作的启发性展开了务实探讨,为课题的深入推进奠定了良好基础。