如何精准调控模型行为浙大腾讯团队新思路打造聪明听话的AI如果你面前有两个AI助手

量子位看科技 2025-06-06 11:25:38

如何精准调控模型行为浙大腾讯团队新思路打造聪明听话的AI

如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选?

这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。但我们真正追求的,并不是在“聪明但难控”与“听话但愚钝”之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。

ACL 2025中选论文中,来自浙江大学与腾讯的联合团队提出了新思路:Steering Target Atoms(STA),尝试为大模型注入“行为定向剂”,助力对模型行为的精准调控,为构建既聪明又听话的AI打下基础。

该方法通过“原子级”粒度对大模型进行行为编辑干预,实现了更鲁棒、更安全的生成控制。

在Gemma和LLaMA系列模型上的实验表明,STA方法能够有效抑制越狱攻击带来的违规输出,同时不削弱模型在正常问题回答中的高质量智能表现。

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注