用Qwen3 Max做测试的时候发现一个很头疼的问题:同一个prompt问三次,能给出三个完全不同的回答,而且不是表述不同,是结论都不一样。
试过把temperature调到最低,还是会出现答案不一致的情况。这种不确定性在需要准确回答的场景下基本没法用。
对比了一下GPT和Claude,虽然也有随机性,但核心结论至少是一致的。Qwen3这边感觉像在掷骰子,每次开盲盒。
用Qwen3 Max做测试的时候发现一个很头疼的问题:同一个prompt问三次,能给出三个完全不同的回答,而且不是表述不同,是结论都不一样。
试过把temperature调到最低,还是会出现答案不一致的情况。这种不确定性在需要准确回答的场景下基本没法用。
对比了一下GPT和Claude,虽然也有随机性,但核心结论至少是一致的。Qwen3这边感觉像在掷骰子,每次开盲盒。
温度调到0也没用的话那确实是模型本身的问题
试试top_p也调低,再加个seed参数看看
GPT和Claude的一致性确实比Qwen好太多了
重要的结论多问几次交叉验证吧,没别的办法
做RAG的时候这种不一致性简直是灾难