如何精准调控模型行为浙大腾讯团队新思路打造聪明听话的AI如果你面前有两个AI助手

量子位看科技 2025-06-06 11:25:38

如何精准调控模型行为浙大腾讯团队新思路打造聪明听话的AI

如果你面前有两个AI助手：一个能力超强却总爱“离经叛道”，另一个规规矩矩却经常“答非所问”，你会怎么选？

这正是当前大模型控制面临的两难困境：要么模型聪明却难以约束，要么守规矩却缺乏实用性。但我们真正追求的，并不是在“聪明但难控”与“听话但愚钝”之间二选一，而是打造既强又好的AI助手——既具备强大的智能能力，又能始终按照人类意图行事。

ACL 2025中选论文中，来自浙江大学与腾讯的联合团队提出了新思路：Steering Target Atoms（STA），尝试为大模型注入“行为定向剂”，助力对模型行为的精准调控，为构建既聪明又听话的AI打下基础。

该方法通过“原子级”粒度对大模型进行行为编辑干预，实现了更鲁棒、更安全的生成控制。

在Gemma和LLaMA系列模型上的实验表明，STA方法能够有效抑制越狱攻击带来的违规输出，同时不削弱模型在正常问题回答中的高质量智能表现。

0 阅读：3

量子位看科技

感谢大家的关注

作者最新文章

1

AI一眼认出95万物种让AI无师自通生态关系让AI看懂95万物种，并自己悟出生态

2

航空发动机用上大模型让模型解决复杂时序问题时序数据分析在工业监控、医疗诊断等领域

3

小扎挖来硅谷华人AI高管第一人小扎今天挖了谁扎克伯格亲自带队，正在重金诚聘更多A

4

全国首个持证上岗的AI厨师来了厨房机器人获数千万融资让机器人下厨房，获数千万元融

5

AI编程引发程序员信任危机你信任别人用AI生成的代码吗AI编程的流行，可能正在破

6

鸟类识别工具认鸟神器想知道身边的鸟叫什么？Merlin可能是目前最全、最智能的免

7

使用AI的老师每周能省6小时三成美国教师每周都用AIAI正在成为教师工作的一部分

8

阿里云飞天发布时刻阿里云百炼2025年已成为名副其实的Agent元年。不论是Op

9

60年数学悬案被建筑生破解康威猜想被验证扔100次，99次「同一面朝上」。这个由

10

AI眼镜和机器人何时进入家庭量子位AI眼镜格局报告如果要问近期最火热的AI硬件品

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

3

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

4

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

5

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

6

一张值20万美元的H100芯片，被两个28岁的年轻人用新加坡和马来西亚做跳板偷偷

7

臻版回归！荣耀太狠了，这次看来是不准备留情面了！荣耀接下来最重磅的机型毫无疑问

8

大招继续！荣耀不藏了！Magic8再次迎来好消息！至臻版回归+卫星通信或成为

9

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

10

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

科技最新文章

1

结合历代荣耀Magic系列的起售价格，预估一下荣耀Magic8的售价荣耀Ma

2

荣耀太狠了！全系最高降价1000元，直接把友商的饭碗给掀了啊荣耀Magic7

3

刚传来的消息马斯克突然宣布了8月8日，马斯克宣布特斯拉将解散自己研发的Do

4

站哥一旦爆料，基本上已经是板上钉钉，没跑了！荣耀Magic8增加Ultra版！

5

荣耀Play10C发布4+128GB649；国补551.656+128GB

6

来北京亦庄看具身智能机器人北京范儿正在参加世界机器人大会，这应该代表了当今世界最

7

华为Mate70全系列官方指导价价格调整，渠道价等我更新，过两天部分机型会有不小

8

小米澎湃OS3爆料汇总，这无敌了吧？汇总网传澎湃OS3系统的爆料，小米这次真

9

小米澎湃OS3系统界面曝光，照片显示，一款基于Android16的小米澎湃O

10

新机来了三星GalaxyS25FE6.67英寸120hz1080p直屏E