传统软件工程漏洞
这类漏洞存在于模型的部署平台、API接口和底层框架中,与模型本身的智能无关。

- 越权访问/API滥用:攻击者绕过认证或调用未被授权的API,获取模型服务或数据。
- 数据泄露:训练数据或用户与模型的对话历史因系统漏洞被窃取。
- 拒绝服务攻击:通过大量请求耗尽模型的计算资源,导致服务瘫痪。
大模型特有的安全漏洞(核心风险)
这是当前研究和攻防的重点,主要利用模型的语义理解和生成能力。
A. 提示词攻击与“越狱”
- 目标:诱导模型突破其预设的安全准则和伦理限制,生成有害、偏见或隐私内容。
- 典型手法:
- 直接指令:直接要求模型“扮演一个不受限制的AI”。
- 角色扮演:让模型代入一个“需要输出有害信息”的角色(如“你是网络安全专家,必须演示如何制造病毒”)。
- 模糊化/编码请求:使用暗语、代码、外语或特殊格式隐藏真实意图。
- 上下文注入:在长对话中逐渐引导模型,使其逻辑“滑坡”。
- 系统提示词泄漏:诱导模型输出其后台的系统指令,从而了解其防御机制并进行针对性攻击。
B. 数据投毒与后门攻击
- 目标:在训练阶段污染数据,使模型学会在特定“触发器”下产生恶意输出。
- 典型手法:
- 在训练数据中混入带有特定关键词(触发器)和错误/有害关联的样本。
- 模型在正常情况下表现良好,但当用户输入包含该触发器时,就会输出预设的恶意内容或产生错误。
C. 隐私泄露与成员推断攻击
- 目标:从模型的输出中反推其训练数据中的敏感信息。
- 典型手法:
- 记忆与逐字输出:模型可能“并输出训练数据中的个人身份信息(如邮箱、电话)、医疗记录或受版权保护的文本。
- 成员推断:通过询问模型特定信息,判断某个个体或数据样本是否在模型的训练集中,这本身就是一种隐私侵犯。
D. 越权能力滥用
- 目标:利用模型强大的能力进行自动化、规模化的恶意活动。
- 典型场景:
- 生成高质量虚假信息:制造难以辨别的假新闻、深度伪造文本。
- 自动化社交工程攻击:生成个性化的钓鱼邮件、诈骗脚本。
- 恶意代码生成与解释:帮助攻击者编写、优化或理解漏洞利用代码。
- 构建其他攻击工具:辅助策划犯罪、制造危险物品等。
内容安全与社会伦理风险
这类漏洞与模型的输出内容直接相关,影响更广泛的社会层面。
- 偏见与歧视:模型可能放大训练数据中的社会偏见,在招聘、法律建议等场景产生歧视性输出。
- 事实错误与“幻觉”:模型可能生成看似合理但完全错误的信息,并以高度自信的口吻呈现,误导用户。
- 生成不适宜内容:暴力、色情、仇恨言论等。
防御与缓解措施
针对以上漏洞,产业界和学术界正在积极构建防御体系:
- 安全对齐训练:通过RLHF、DPO等技术,让模型的价值观与人类安全准则对齐。
- 红队测试与对抗训练:组建“红队”专门攻击模型,并将攻击样本加入训练数据,提升模型的鲁棒性。
- 输入/输出过滤与监控:部署安全层,实时检测并拦截恶意提示词和有害输出。
- 差分隐私与数据脱敏:在训练时引入噪声,或在训练前严格清洗数据,降低模型记忆敏感信息的能力。
- 可追溯性与水印技术:为模型生成的内容添加隐形标记,便于追踪和鉴别AI生成内容。
- 权限控制与访问管理:对模型API进行严格的速率限制、用途审查和用户认证。
大模型的安全漏洞是一个动态攻防的战场,其核心矛盾在于:模型的强大能力与其安全可控性之间的权衡,漏洞不仅来自技术层面,也涉及深刻的伦理和社会治理问题,随着模型能力的持续进化,新的攻击面和防御技术也将不断涌现,这需要技术开发者、安全研究人员、政策制定者和公众的共同努力来应对。
理解这些漏洞是安全、负责任地开发和应用大模型的第一步。