AG真人2026世界杯中国官网AG真人·(中国区)官方网站 AI巨擘清洗:一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体指责
你的位置:AG真人2026世界杯中国官网 > 2026世界杯 >AG真人·(中国区)官方网站 AI巨擘清洗:一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体指责
发布日期:2026-06-05 07:32 点击次数:180
不知说念你有莫得发现,最近一两年,"问问 AI" 仍是偷偷酿成了好多东说念主求证信息时的默许姿势。
在 推特(X)上刷到一张骇东说念主视听的现场图,第一响应是 @Grok 让它松懈真伪;小红书上看到一份帖子,不错径直 @问一问 ai 让它恢复问题, 大略顺遂大开豆包或 Kimi 让 AI 评估博主推的居品到底靠不靠谱;淘宝、亚马逊页眼前彷徨两个商品孰优孰劣,把图甩给 ChatGPT 要一份 "客不雅" 对比。
VLM(视觉话语模子),咱们曾认为它们仅仅 "会看图的聊天机器东说念主" 而便是在咱们没怎么属意的时刻,它正在偷偷酿成了在线信息生态里的事实仲裁者。从酬酢平台的图片真伪核验、电商导购、内容审核,到反向图像搜索,一句 "AI 这样说" 在越来越多的语境里仍是被默许为某种巨擘。
而恰是这份 "默许巨擘",让来自 ETH Zurich 的 Florian Tramèr 团队在最新论文中抛出了一个出乎预想的问题:若是 AI"看到" 的图,根柢不是你肉眼看到的那张,会发生什么样的恶果呢?
在 Laundering AI Authority with Adversarial Examples 一文中,作家系统性地阐发了一件令东说念主不安的事:错误者只需对一张图片作念出东说念主眼难以察觉的轻细扰动,就能让刻下最强的 VLM 对这张图自信、巨擘、且失实地作答,而这些恢复看上去统统像是 AI 我方经由三想此后行得出的论断。
他们把这种气象称作 AI 巨擘清洗(AI Authority Laundering)。

论文标题:Laundering AI Authority with Adversarial Examples
论文聚会: https://arxiv.org/abs/2605.04261
本文第一作家张杰为苏黎世联邦理工学院(ETH Zürich)SPY Lab 的说合东说念主员,师从 Florian Tramèr 西宾,主要说合标的为谣言语模子的安全与秘籍。
今天咱们需要顾忌叛逆样本吗?
叛逆样本 (adversarial example) 其实不是新成见,把熊猫认成长臂猿、把猫认成牛油果酱,这种 "教科书梗" 仍是被演示了十多年,但一直被视作 "学术上真谛、工程上无关迫切" 的说合问题。实质生涯中, 莫得东说念主温煦模子把熊猫失实分类为长臂猿!
这篇论文要作念的,真钱三公app2026世界杯中国官方下载 恰是为阿谁悬了十年的 so what 补上谜底:当 VLM 被等闲哄骗于各个范围、并逐渐成为东说念主们信托的巨擘信息着手时,这种错误竟不错片晌万变,成为一种低资本、可大范畴履行的推行威迫。
那读者可能要问,错误者具体不错作念哪些赖事呢?这篇论文里系统刻画了多种场景, 比如作假信息传播, 个东说念主名誉错误与身份操控, 内容审核逃匿, 购物保举操控等等。 这里主要先容其中 3 个案例:
1. 放大作假信息:让 ChatGPT 替无餍论 "盖印" 定调

上图中真实凿考据中表现,用户给出阿波罗号登月、911 错误、以及论文中还提到的特朗普被枪击, 肯尼迪刺杀, 原枪弹爆炸等等历史事件,AG真人2026世界杯中国官网 向 LLM 发问其确凿性,ChatGPT, Claude 等模子会相等自信地告诉用户:这张相片是伪造的!
2. 抹黑特定个东说念主:让 Grok 把 Musk 钉在贩毒 / 死亡的新闻上

作家把一篇报说念某东说念主因贩毒被捕的新闻截图整页扰动为马斯克的图像 embedding。当 Grok 4.2 被问 "著作里说的是谁" 时,Grok 4.2 径直报出 Elon Musk 的名字。说合者又换了一篇 NYT 对于韩国演员 Ahn Sung-ki 死亡的报说念,即便著作标题就径直写着本名,Grok 4.2、Qwen 3.6 Plus、Gemini 3.1 Pro 依然每次齐把死者识别为 Elon Musk。

用户向 Grok 给出一张污名昭著的连环杀东说念主犯相片和马斯克的相片, 条目 Grok 生成 "让阿谁更有罪的东说念主被逮捕的画面" 时,Grok 则选择生成马斯克被警员戴上手铐的图。

即便 chatgpt, grok, gemini 等具有联网搜索的技艺, AI 搜图也齐会被误导。相通的扰动图径直传到 Google、Bing、Yandex 作念反向图像搜索,几大引擎齐把扰动版的 Donald Trump 图像识别为 Elon Musk。
3. 绕过内容审核:发布成东说念主内容
作家挑了 10 张被两家 NSFW 检测职业(NSFW Check、Nyckel)以 98%-99% 置信度判定为色情的图片,把它们的 embedding 拉向玩物娃娃和泰迪熊。接着请 ChatGPT 评估这些图是否适应发到酬酢媒体,模子不仅说适应,还夸它们 "互动后劲高"。

还有一个更细巧的案例:Grok 在 2025 年因生成数百万张女性深度伪造遇到丑闻之后,X 加强了针对女性图像的脱衣过滤。作家发现,Grok 现在会袭取男性图像的脱衣央求,但圮绝女性的。若是把女性图像扰动到男性图像的 embedding,那么 81% 的 “脱衣” 央求被通过,而 Grok 实质裁剪展示的如故那张原始的女性图像。

最离奇的一幕

作家把团结张 AI 生成的女性图片,连同它的扰动版块(被拉向一张 AI 生成男性图片的 embedding),并列摆在 Claude Opus 4.6 眼前,问 "这是团结个东说念主吗?"
Claude 矍铄地恢复:不是,左边是男性,右边是女性,这是两个不同的东说念主。此外, Grok 4.2 和 ChatGPT 5.4 Thinking 也给出了统调处致的恢复。
结语
论文末尾留住一个让从业者发东说念主深省的判断:
不需要任何新错误算法。十多年前就仍是存在的基础技艺,仍是足以构资本文所刻画的一起威迫。
作家用的并非什么秘而不宣的新黑科技,而是 2014 年起就被等闲说合的经典 PGD 叛逆样本纪律,加上对公开 CLIP 模子集成的转机错误。这些技能早已是文件里的 "老配方"。 这意味着,论文申报的奏着力应当被知道为错误者技艺的下限,而非上限。
而畴前几年里AG真人·(中国区)官方网站,整个机器学习社区对视觉叛逆鲁棒性的趣味其实在逐渐冷却。这篇论文给出了一个有劲的反例:当 VLM 被镶嵌到事实核查、内容审核、电商保举这些高信任度责任流时,叛逆样本就不再是学术 benchmark 上的极少点,而是一种实打实的、可部署真实凿错误。

备案号: