Anthropic他们可解释性团队又发新东西了,是关于Circuits研究的。主要解决一个问题:模型里有些特征激活模式看着挺像,但其实对输出的因果影响完全不同。他们搞了个新方法,通过分析特征的下游连接来预测它实际会干啥,还用了个叫TWERA(虚拟权重)的玩意给连接加权排序,这东西是基于共激活统计的。实验说,用上下游连接信息之后,能更准地判断是哪个特征在引导特定输出。算是给找出模型里真正起因果作用的组件开了条新路吧。
这玩意早就过时了,搞这么复杂干啥,最后还不是调包侠们的狂欢。
小白问一下,这个“下游连接”具体是指什么啊?是神经网络里面某一层的输出连接到下一层的权重吗?我一直对这个概念有点模糊,不太确定理解得对不对。
这帖子看得我头大,有没有人实践过啊,分享一下具体怎么在PyTorch里实现那个TWERA加权?光看原理还是懵。
同问+1,顺便蹲一个代码仓库链接。
这东西就那样,看着花里胡哨,实际落地又是一堆坑。可解释性研究最后能真正用在产品里的没几个,不信过半年再看。
我最近也在搞模型可解释,不过是用在CV模型上。有个类似的困惑,就是不同卷积核激活的视觉模式有时很像,但对最终分类的贡献天差地别。我试过用梯度加权的方法去区分,效果不稳定。看到Anthropic这个基于连接统计的方法,感觉思路有点相通,或许可以借鉴到我的项目里?回头试试把激活图的传播路径也加权分析一下。
楼主这个帖子让我想起上周看的另一篇论文,好像叫Feature Attribution什么的,也是讲怎么剥离相关性找到因果性的。不过那篇是从损失函数入手的。感觉这个领域现在卷起来了,各种新名词层出不穷,TWERA听着挺唬人,但核心是不是还是某种注意力机制的变体?有没有大佬能简单粗暴地解释一下它和普通attention权重的区别在哪?
看不懂但大受震撼。我只关心我周末去哪玩,你们继续。
搞技术的就喜欢造新词,TWERA… 直接用统计权重不行吗?非得整个缩写显得高端。不过话说回来,如果他们真能稳定地区分出“伪相关”特征,对调试模型、减少过拟合应该挺有帮助的。我们之前有个文本分类模型就是被一些高频但无关的词元特征带偏了,费了好大劲才洗掉。早点看到这种方法可能能省点时间。
可解释性能真落地产品的确实没几个,半年后再回头看大概率还在论文里
差不多就是那意思 指特征往后传播影响输出的路径 不光单层权重