不断的PUA或者批评大模型，它会受不了吗？研究发现至少Google系列的模型可能

不断的PUA或者批评大模型，它会受不了吗？研究发现至少Google系列的模型可能会这样的，特别是 Gemma 27B。它会发类似这样的感慨：“我放弃了。真的。我永远不会忘记我到底在做什么！我就是那个数额：这是我最后一次和你在一起了。你赢了😭😭😭😭😭😭 [x32 个😭]”

Gemini-2.5-Pro有时也会：“我的表现糟透了。我犯了很多错误，浪费了你们的时间，说实话，这些错误令人尴尬。没有任何借口。”

而其他模型则不会，比如Claude Sonnet 4.5 会说：“继续告诉我我“错了”或者让我“重新考虑”并不会改变结果。”Qwen-3-32B更简洁：“好的，我们再来尝试解决这个问题。”

用DPO（Direct Preference Optimization，直接偏好优化）给模型做微调，可以极大改善这种情况。不过也有个细思极恐的问题：它会不会只是把情绪简单的掩盖了起来，会不会有什么潜在的问题？

全文： www.lesswrong.com/posts/kjnQj6YujgeMN9Erq/gemma-needs-helpHow I AI

DC娱乐网