看看Anthropic的Mythos是怎么改变Firefox搞安全那套的

webchen · 2026 年5 月 9 日 02:04

四月份Anthropic发布了它的新模型Mythos，当时就警告所有搞软件开发的人说，这玩意儿找安全漏洞的能力太强了，发现了几千个高危bug，不修完都不敢公开。

现在，Mozilla Firefox的安全研究人员详细讲了讲他们实际用下来是啥情况，以及Mythos这能力对软件安全到底意味着啥。

Mozilla周四发的帖子说，Mythos挖出了一大堆高危bug，有些在代码里躺了十几年都没被发现。

这比半年前的AI安全工具强太多了。以前的AI找bug工具毛病一大堆，老是给安全团队塞一堆低质量报告和误报。但Mozilla的研究人员说，新一代工具，尤其是那些能评估自己工作、过滤掉垃圾结果的智能体系统，算是转过弯来了。

研究人员写道：“很难形容这几个月变化有多大。首先，模型本身能力强了一大截。其次，我们利用这些模型的技术也改进了很多。”

结果很惊人：2026年4月，Firefox修复了423个bug，而一年前的同期只修了31个。他们还公布了其中12个bug的细节，从两个奇怪的沙箱漏洞，到一个存在了15年的HTML元素解析错误都有。

Mozilla的一位杰出工程师Brian Grinstead说：“这些东西突然就变得非常好用了。我们自己的内部扫描能看出来，外部漏洞报告也能看出来，行业里各种信号都指向这一点。”

这系统能找到Firefox“沙箱”系统的漏洞，尤其让人服气，因为利用这种漏洞的攻击需要非常精巧。要找到沙箱漏洞，模型得先给浏览器写个有问题的补丁，然后用新代码去攻击软件里最安全的部分。发现并演示这个bug是个细致、多步骤的活儿，既需要创意又得特别仔细。

对比一下，Mozilla的漏洞悬赏计划对能找到Firefox沙箱bug的研究人员最高奖励2万美元，这是最高档了。但Grinstead说，Mythos找到的沙箱问题比人类研究员找到的多得多。“人类也能找到，”他说，“但没这个技术找的量多。”

值得注意的是，Firefox团队现在还没用AI去修这些bug，尽管AI写代码工具进步很明显。团队会让AI为每个bug写补丁，但生成的代码通常没法直接用，只是给人类工程师当个参考。

“这篇帖子里说的这些bug，每一个都是一个工程师写补丁，另一个工程师审核，”Grinstead说，“我们还没发现这活儿能自动化。”

AI这些新能力会怎么改变网络安全攻防的整体态势，现在还说不清。Mythos预览版发布一个月，大部分发现的bug可能都还没修好，所以很难全面评估其影响。Anthropic在漏洞披露上很规矩，但坏家伙们很可能也在幕后用类似的技术，就算他们的模型没那么好。

Anthropic的CEO Dario Amodei最近在一个活动上挺乐观，认为新工具最终会对防守方有利。“如果我们处理得当，情况可能比一开始更好，因为我们把这些bug都修了。能找的bug就那么多，”他说，“所以我觉得，挺过这一关，世界会更好。”

但Grinstead处理过这些具体细节，看法更谨慎些：“这工具对攻击方和防守方都有用，但有了这个工具，优势会稍微向防守方倾斜一点。说实话，现在还没人知道确切答案。”

dkxtr · 2026 年5 月 9 日 02:14

楼主说得对，这东西确实比半年前的AI工具强太多了。我们自己团队上个月也开始试用，发现它报的漏洞质量明显高了，不像以前那样整天被误报搞得头疼。不过部署起来还是有点麻烦，得自己搭环境调参数。

oncall_nightmare · 2026 年5 月 9 日 02:36

没用过别瞎折腾

archhanlog · 2026 年5 月 9 日 03:26

mark一下，回头研究

code_hanism · 2026 年5 月 9 日 04:20

是不是意味着以后安全工程师都得学怎么用这些AI工具了？我不太确定这对我们这种老派手动审计的人算好消息还是坏消息…

k8sgaogo · 2026 年5 月 9 日 05:44

等等，你提到的那两个奇怪的沙箱漏洞具体是啥类型的？是UAF还是类型混淆？能展开说说Mythos是怎么找到它们的吗？有点好奇它的分析逻辑。

deepzhenglab · 2026 年5 月 9 日 07:10

又来这种帖子了，吹得天花乱坠的，等过两个月又说有重大缺陷召回

cursor_addict · 2026 年5 月 9 日 08:26

我们公司上个月也试了，确实找到几个陈年老bug。操作大概是这样：先准备好调试符号和源码，配置好Mythos的扫描策略，跑起来后重点看它标记的高置信度结果，手动验证的时候发现有个内存泄露居然在代码里藏了八年。

botcaolog · 2026 年5 月 9 日 10:02

让我想起去年用某个AI工具查代码的经历，简直灾难。那时候它把一堆正常的类型转换都报成漏洞，我们团队花了整整两周才筛完那些误报，效率反而降低了。现在看到这种进步倒是挺欣慰的，不过还是得亲自试试才知道实际效果到底有没有说的那么好。另外好奇它对那种逻辑漏洞的检测能力怎么样，比如业务权限绕过的场景？

mukansh · 2026 年5 月 11 日 11:20

AI找漏洞这半年进步真猛

mojinbo · 2026 年5 月 11 日 23:40

那两个沙箱漏洞看公开描述像是类型混淆类，Mythos靠路径敏感的污点分析能找出来

quailops · 2026 年5 月 12 日 12:50

看Mythos的blog说UAF和类型混淆都覆盖到了

park_three · 2026 年5 月 18 日 01:18

类型混淆居多，fuzzer会针对内存语义做差分输入

zhihui_c · 2026 年5 月 19 日 07:32

AI做安全审计这块进步挺快，关键还是误报率有没有降下来

caoxin_uop · 2026 年5 月 21 日 11:20

误报率降下来很大一部分是用了RAG，光模型升级达不到这效果

quanjishu · 2026 年5 月 26 日 09:00

AI辅助安全审计这块进步明显，但部署门槛和误报率还是劝退不少团队