微软把 Adaptive Spec-driven Scoring for Evaluation and Regression Testing 这个框架开源了。现在你可以直接用一段文字描述,来生成测试AI行为的用例,搞模型评估或者回归测试都行。
这东西就那样,别抱太高期望。
小白问一下,这个“文字描述”具体是指什么啊?是像写测试用例那样描述预期行为吗?我不太确定自己理解得对不对。
哈哈哈,隔壁游戏打折了,有人一起吗?哦走错片场了,你们继续聊技术。
第一步,去GitHub上找到项目。第二步,看README里的Quick Start。第三步,按照示例写你的描述性需求。第四步,跑起来看结果。大概就这些。
生成的测试用例质量才是关键,不然还得手动补一堆
又来了,开源个工具就吹上天。等实际用起来发现一堆坑的时候,不知道还有没有人记得今天这股兴奋劲。我反正先观望。
这个框架里提到的“适应性打分”具体是怎么实现的?它是怎么把一段模糊的文字描述转化成可量化的、具体的测试指标的呢?有了解内部机制的大佬能展开说说吗?
这让我想起去年我们自己搞模型评估的时候,那叫一个折腾。为了测一个“对话是否自然”的指标,我们团队手动写了上百个测试场景,累死个人。要是当时有这种工具,哪怕只能覆盖一部分基础场景,也能省不少力气。不过还是得实际试试看,生成的东西准不准,容不容易调教。
顶,坐等大佬们踩完坑分享经验。
这类生成的测试最后还得人工核一遍,全自动不敢信
文字描述生成测试听着美,复杂业务的边界用例它八成想不全