介绍《Not with a Bug, But with a Sticker》
这本书讨论了机器学习(ML)系统的固有脆弱性,特别关注它们如何成为恶意攻击的目标。作者和引用的专家强调,尽管人工智能系统越来越强大并融入关键基础设施,但它们很容易受到各种形式的操纵,例如通过对抗性示例,即使是微小的输入修改也可能导致错误分类。文本还强调了数据中毒攻击的风险,在这种攻击中,对手通过破坏用于训练模型的数据来破坏系统的功能。总而言之,这些选集呼吁人们提高对这些漏洞的认识,并需要更强的安全措施和策略来确保人工智能系统的可靠性和可信度,特别是在高风险应用领域。
欢迎收听。今天我们来深入聊一些挺有意思的材料,特别是围绕一本叫 《Not with a Bug, but with a Sticker》 的书。这个书名就很有意思。你看,现在人工智能(AI)发展这么快、用得也越来越广,到处都是。但它们到底安不安全、可靠不可靠?这本书以及 OpenAI、CrowdStrike 等研究机构的专家其实都在提醒我们并发出警告——AI 系统可能比我们想的要脆弱得多,而且正迅速成为攻击目标。
⸻
所以今天咱们的目标是帮你快速抓住 AI 系统面临的一些特别的风险,尤其是不太容易被注意到、却容易被坏人钻空子的隐蔽弱点。你看,书名说“不是因为程序错误,而是一张贴纸”,就暗示威胁可能来自非常简单的地方,颇具反直觉。我们会看几个例子,有些真的让人惊讶;你会明白这不光是技术圈的事,其实跟我们每个人都有关系。
⸻
关键在于,AI 做决策的环境很多时候是 对抗性 的:总有人试图干扰 AI、骗过它的判断。比如社交媒体内容审核,或者自动驾驶汽车识别路标,都可能有人想攻击它。
想象一下,在一个停车标志上贴几张特殊设计的贴纸,自动驾驶的 AI 可能就把它看成“限速 45 英里”的牌子;或者给一张熊猫照片加一点人眼几乎看不出的微小扰动,顶级图像识别系统就信誓旦旦地说那是一只长臂猿。熊猫变长臂猿的例子很经典,听起来不可思议,却真实存在。
⸻
1 对抗样本(Evasion Attacks,规避攻击)
AI 靠模式识别来学习,但有时会走捷径,过度依赖图片的颜色、纹理等表面特征,而不是“理解”内容。这会导致奇怪错误:比如把洋葱图片标成“不当内容”,或谷歌地图建议登山者走极其危险的小路。这些错误可能致命,而我们往往过度信任 AI——即使亲眼看到它翻车,人们对 AI 的整体信任度似乎也不会显著下降。
规避攻击就是攻击者仅对输入数据(图片、声音等)做极小改动——人眼/耳几乎察觉不到,却足以让 AI 得出完全错误的结论。甚至简单到把医疗影像旋转一下都可能影响诊断结果。
⸻
2 数据投毒(Poisoning Attacks)
还有一种更隐蔽的方式叫数据投毒。AI 训练需要海量数据;如果攻击者在训练数据里悄悄掺入少量“有毒”样本,就能从根源上污染模型,让它在特定情境下做出偏见或错误判断。
• 典型案例:微软聊天机器人 Tay 上线不到 24 小时就被网友“带坏”,开始输出各种不当言论。
• 研究表明,污染仅 0.1% 的数据就可能操纵模型行为——比例极低,却影响巨大。
你可能问:谷歌、OpenAI 这些大公司不是应该把训练数据保护得很好吗?直接黑进核心数据中心当然极难,但投毒不一定非得动原始数据——大量模型依赖从网上抓取的公开数据,而网络内容本身可能已被操纵或带偏见。
再比如:某 TikTok 网红推荐了调查平台 Prolific,结果大量背景相似的用户涌入,意外“污染”了依赖该平台招募受试者的学术研究数据,样本多样性骤降,改变了研究结果。这说明数据来源的微妙变化也能产生类似投毒的效果。
⸻
3 防御难点
要防这些攻击非常困难。研究人员尝试过所谓 梯度掩码(Gradient Masking) 等方法,试图隐藏 AI 模型的决策路径,不让攻击者轻易找到弱点。但顶尖安全研究员 Nicholas Carlini 多次证明,许多“防御”很快就会被绕过——道高一尺,魔高一丈。保护 AI 远比修补传统软件漏洞难得多,这也让担忧上升到了国家层面。
美国 国家人工智能安全委员会(NSCAI) 在报告中直言:美国尚未准备好在 AI 时代进行防护或竞争,必须正视 AI 系统的脆弱性,这已攸关国家安全。
⸻
4 我们面临的挑战
综合来看,AI 确实越来越强大,但也面临一些独特且反直觉的安全风险:
• 攻击可能极其微妙——一张小贴纸、几个像素点就能让系统翻车;
• 也可能“直击要害”——从源头污染训练数据;
• 我们往往对 AI 过度信任,把偶尔失败当成个别现象。
这不仅是技术挑战,更关乎我们如何设计、部署并监管已深度融入生活的系统。AI 安全不像传统软件打个补丁就完事,它更基础、更复杂、更深层。正如书名所示,“不是 bug,而是一张贴纸”——真正的威胁也许就藏在最不起眼的地方。
⸻
留给你的思考
当我们越来越依赖这些智能系统,让它们替我们做决定——小到开车导航,大到医疗诊断、国家安全决策——我们怎样才能确保这份信任是可靠的、建立在坚实基础上的?如果一张小贴纸就能颠覆一个复杂系统,那我们又该如何真正建立安全感?下次你与 AI 互动时,无论是手机助手还是其他什么,不妨带着这个问题想一想。