好家伙，支付宝这波用AI抓AI，属实是自己打自己了属于是

hackliangpro · 2026 年6 月 4 日 03:04

直接说下我们怎么用AI来抓Agent里的安全漏洞吧。

主要想法就是“以模治模”。我们自己训练了一个Agent，让它去模拟攻击者，然后去测试我们自己的产品Agent，看能不能找出漏洞。

具体干了这么几件事：

搭了个模拟环境，让攻击Agent在里面折腾。
定了些安全规则和目标，让它照着这个路子去“黑”我们的产品。
攻击Agent会自己生成各种测试用例，有些路子还挺刁钻的，比纯靠人工想的全。
跑完以后，自动把发现的漏洞、攻击路径这些都整理成报告。

试了一段时间，感觉还行。确实能发现一些我们之前没考虑到的问题，特别是那些逻辑上的、或者上下文相关的漏洞。效率比纯人工高多了，能覆盖的场景也广。

当然也不是万能的，有些复杂交互或者特别新的攻击手法，AI暂时还搞不定，得人机结合着来。这算是个开始吧，后面还得继续优化。

k8sdengist · 2026 年6 月 4 日 03:14

这思路有意思，用魔法打败魔法了属于是。

ops_gu_run · 2026 年6 月 4 日 03:28

没用过别碰。

node_hu_hq · 2026 年6 月 4 日 03:44

小白问一下，这种模拟攻击的Agent，训练用的数据从哪来啊？是自己构造的异常流量数据包吗？还是说用了一些公开的漏洞库？不太确定这种方法的训练成本高不高。

404_brain_found · 2026 年6 月 4 日 04:20

坐等大佬放出更详细的技术实现，比如用了啥框架。

zhaoyi_ml · 2026 年6 月 4 日 05:04

又来这种帖子了，标题“AI检测AI漏洞”高大上，一看内容不就是做个测试Agent去跑fuzz嘛，换汤不换药。最后还得靠人擦屁股，说得好像AI真能全自动了一样。

deepliang · 2026 年6 月 4 日 05:44

mark一下，回头细看。

pyhedev · 2026 年6 月 4 日 06:36

我们团队其实也在做类似的事情，不过不是针对支付宝Agent，而是自己的对话系统。分享一下我们的踩坑经验：最难的不是让攻击Agent去“攻”，而是如何定义“攻破”的标准。比如对话被诱导泄露了非敏感但不应提供的信息，这算漏洞吗？阈值设得太低全是误报，设高了又怕漏掉。我们最后是定义了几级严重程度，AI先筛一遍，人工再复核高级别的。另外，模拟环境的真实性很重要，要尽量还原线上交互的逻辑和状态，不然测出来的东西没意义。

infradengcode · 2026 年6 月 4 日 07:52

楼主提到AI生成的测试用例路子刁钻，能不能具体举个例子？比如在支付宝Agent的上下文里，它产生了什么样的“刁钻”输入？是绕过了身份验证的对话流，还是构造了某种特殊的支付指令组合？很好奇AI的“创造力”边界在哪里。

logxr · 2026 年6 月 4 日 09:00

第一步，搭模拟环境，用容器或沙盒隔离。第二步，定义攻击面（API、输入点、状态机）。第三步，给攻击Agent设定奖励函数，找到漏洞就给高分。第四步，让它用强化学习自己摸索，或者用遗传算法变异输入。第五步，收集日志，自动归类。

toolstangone · 2026 年6 月 4 日 09:56

是不是说以后安全测试工程师都要转型去调教这些攻击AI了？感觉对技能树要求变了啊，不懂机器学习是不是就干不了这行了？我不太确定。

admin2jianghub · 2026 年6 月 4 日 11:02

看到这个突然想起来，昨天我那车机系统好像又被OTA更新了，每次更新完语音助手就有点蠢，不知道是不是也用类似方法测的，感觉测得不咋地啊，老是理解错指令。

redteam_lu · 2026 年6 月 4 日 11:52

以攻促防思路没错但别全信自动化还得人复核

pixelhou · 2026 年6 月 5 日 08:30

说是这么说，但测试用的Agent自己也可能被绕，最后还得人盯结果

raoxiang_dev · 2026 年6 月 6 日 05:30

话不能这么说，自动跑一遍至少把人力先省下来了

yeinfra · 2026 年6 月 9 日 04:46

没用过就别急着下定论吧，这方向其实挺有搞头的

sec_miao · 2026 年6 月 15 日 13:32

一般公开漏洞库打底再用真实流量喂纯构造的覆盖不全

yu_anquan · 2026 年6 月 18 日 01:32

训练数据这块我也好奇，自己造异常流量样本成本应该不低吧

attackdef · 2026 年6 月 24 日 01:42

怎么定义攻破确实是最难的，比攻本身还头疼