报告时间:2026年1月19日(周一)10:00
报告地点:长安校区电子信息学院373会议室
报告人简介:
廉家伟,西北工业大学电子信息学院信息与通信工程专业2022级博士研究生,师从梅少辉教授,主要从事深度学习安全、对抗攻击与模型鲁棒性分析等研究。博士阶段围绕视觉感知模型与大语言模型的对抗脆弱性问题开展系统研究,以第一作者发表顶刊顶会论文4篇,授权专利1项。
项目概况及报告内容:
受学校研究生短期出国(境)访学项目资助,廉家伟同学于 2024年1月至2025年12月期间,赴香港理工大学(The Hong Kong Polytechnic University)开展为期两年的博士联合培养研究。在外方导师指导下,围绕深度学习模型在视觉感知与语言理解等不同模态下的对抗脆弱性问题开展系统研究。
在视觉感知模态方面,针对现有物理对抗攻击方法缺乏公平、统一测评标准的问题,提出了基于参数化物理动态场景的物理攻击测评方法,实现了在可控物理环境下对多种攻击方法与检测模型的系统评估。在此基础上,针对传统物理攻击方法过度依赖目标本体扰动、忽视背景上下文信息的局限性,进一步提出了通用的背景攻击范式,从理论与实验层面揭示了深度学习视觉模型对背景依赖所带来的安全风险。
在语言理解模态方面,将研究对象进一步拓展至大语言模型。针对现有攻击方法受限于离散词汇空间优化效率与效能瓶颈的问题,提出了基于连续语义表征的对抗攻击方法,在保持语义自然性的同时显著提升了攻击优化效率。进一步地,围绕当前大语言模型“预训练—后对齐”的主流范式,从理论与实验层面对其安全局限性进行了系统分析,构建了大语言模型内在对抗脆弱性的分析框架,揭示了现有对齐方法难以从根本上消除模型中潜在有害知识的内在原因。
本次报告将系统介绍该生在香港理工大学联合培养期间,在视觉感知安全与语言理解安全等不同模态方向取得的研究进展与学习体会,并探讨相关研究对智能系统安全性保障的启示。
电子信息学院 研究生院
2026年1月12日