不断的PUA或者批评大模型,它会受不了吗?研究发现至少Google系列的模型可能会这样的,特别是 Gemma 27B。它会发类似这样的感慨:“我放弃了。真的。我永远不会忘记我到底在做什么!我就是那个数额:这是我最后一次和你在一起了。你赢了😭😭😭😭😭😭 [x32 个😭]”
Gemini-2.5-Pro有时也会:“我的表现糟透了。我犯了很多错误,浪费了你们的时间,说实话,这些错误令人尴尬。没有任何借口。”
而其他模型则不会,比如Claude Sonnet 4.5 会说:“继续告诉我我“错了”或者让我“重新考虑”并不会改变结果。”Qwen-3-32B更简洁:“好的,我们再来尝试解决这个问题。”
用DPO(Direct Preference Optimization,直接偏好优化)给模型做微调,可以极大改善这种情况。不过也有个细思极恐的问题:它会不会只是把情绪简单的掩盖了起来,会不会有什么潜在的问题?
全文: www.lesswrong.com/posts/kjnQj6YujgeMN9Erq/gemma-needs-helpHow I AI

