国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“專(zhuān)家人設(shè)”反而讓 AI 變笨?研究實(shí)錘:一句“你是資深工程師”,代碼準(zhǔn)確率不升反降!

0
分享至

編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

如果你也經(jīng)常這樣寫(xiě) Prompt——

“你是一位資深全棧工程師,請(qǐng)幫我寫(xiě)一套生產(chǎn)級(jí)系統(tǒng)代碼……”

那這篇研究,可能會(huì)讓你重新審視自己的使用習(xí)慣。

一直以來(lái),“給 AI 加人設(shè)”幾乎成了默認(rèn)操作。從寫(xiě)代碼、寫(xiě)文檔,到做架構(gòu)設(shè)計(jì),不少開(kāi)發(fā)者都會(huì)在開(kāi)頭先“鋪墊一句”,試圖把模型“催眠”成一個(gè)更專(zhuān)業(yè)的版本。但問(wèn)題是:這種看似提升專(zhuān)業(yè)性的技巧,可能正在悄悄拉低結(jié)果質(zhì)量。

近日,一項(xiàng)來(lái)自美國(guó)南加州大學(xué)(USC)的最新研究,對(duì)這一做法給出了一個(gè)有些反直覺(jué)的結(jié)論:讓 AI 扮演“專(zhuān)家”,并不會(huì)讓它更擅長(zhǎng)解決專(zhuān)業(yè)問(wèn)題,反而在編程和數(shù)學(xué)任務(wù)上會(huì)明顯變差。(論文地址:https://arxiv.org/abs/2603.18507)



一項(xiàng)研究:為什么“專(zhuān)家人設(shè)”會(huì)翻車(chē)?

所謂“人設(shè)提示”(Persona-based Prompting),本質(zhì)上就是一種“角色扮演式”的 Prompt 技術(shù)。它的核心邏輯很簡(jiǎn)單:通過(guò)一句身份設(shè)定,讓模型進(jìn)入某種“工作狀態(tài)”。

這種方法在 2023 年開(kāi)始被廣泛討論,并迅速在開(kāi)發(fā)者社區(qū)流行開(kāi)來(lái)。無(wú)論是教程、課程,還是各種 Prompt 模板,幾乎都會(huì)建議你這樣寫(xiě):

● “你是一位經(jīng)驗(yàn)豐富的機(jī)器學(xué)習(xí)工程師……”

● “你是一名精通系統(tǒng)設(shè)計(jì)的架構(gòu)師……”

● “請(qǐng)以安全專(zhuān)家的視角分析以下問(wèn)題……”

理論上來(lái)說(shuō),這種方法似乎很合理。畢竟模型是“語(yǔ)言驅(qū)動(dòng)”的,那多給一點(diǎn)上下文,不就能讓它“更像專(zhuān)家”嗎?但來(lái)自南加州大學(xué)(USC)的研究人員在一篇論文中指出:

“人設(shè)提示是否有效,很大程度上要看任務(wù)類(lèi)型?!?/blockquote>

也就是說(shuō),并不是“加了人設(shè)就一定能變強(qiáng)”,而是“用對(duì)了才行”。具體來(lái)說(shuō),該研究團(tuán)隊(duì)將任務(wù)大致分成兩類(lèi):

(1)一類(lèi)是依賴(lài)“對(duì)齊能力”的任務(wù),比如寫(xiě)作、角色扮演、遵守規(guī)則、安全策略等。在這些場(chǎng)景中,模型需要的是“行為符合預(yù)期”,而不是絕對(duì)正確的答案。

(2)一類(lèi)則是依賴(lài)“知識(shí)和推理能力”的任務(wù),比如數(shù)學(xué)計(jì)算、代碼生成、事實(shí)問(wèn)答。這些任務(wù)則更依賴(lài)模型在預(yù)訓(xùn)練階段學(xué)到的知識(shí)儲(chǔ)備。

基于這兩類(lèi)任務(wù),研究團(tuán)隊(duì)得到的實(shí)驗(yàn)結(jié)果為:在“人設(shè)提示”的加持下,第一類(lèi)任務(wù)表現(xiàn)有所提升;但在第二類(lèi)任務(wù)中,模型表現(xiàn)卻出現(xiàn)了系統(tǒng)性下降。


真正的問(wèn)題:它在“演”,而不是在“算”

為了量化這種影響,研究人員使用了一個(gè)經(jīng)典評(píng)測(cè)基準(zhǔn):MMLU(大規(guī)模多任務(wù)語(yǔ)言理解測(cè)試)。這個(gè)測(cè)試覆蓋多個(gè)學(xué)科,常被用來(lái)衡量大模型的綜合能力。

評(píng)測(cè)之后,結(jié)果非常直接:

● 不加“人設(shè)”:準(zhǔn)確率 71.6%

● 加“專(zhuān)家人設(shè)”:準(zhǔn)確率 68.0%

更重要的是,這種下降幾乎出現(xiàn)在所有學(xué)科類(lèi)別中,而不僅僅是個(gè)別任務(wù)。這說(shuō)明了一個(gè)問(wèn)題:“人設(shè)提示”確實(shí)改變了模型的行為方式,但這種改變,并不總是好的。

對(duì)于這個(gè)結(jié)果,研究團(tuán)隊(duì)給出的解釋非常耐人尋味:

“人設(shè)前綴可能激活了模型的‘指令執(zhí)行模式’,從而擠占了原本用于‘事實(shí)回憶’的能力?!?/blockquote>

解釋一下,從模型機(jī)制來(lái)看,大語(yǔ)言模型本質(zhì)上是在做“概率生成”。當(dāng)你告訴它“你是一位專(zhuān)家”,它并不會(huì)獲得任何新的知識(shí),也不會(huì)解鎖新的推理能力,但會(huì)進(jìn)入一種更偏“指令執(zhí)行”和“角色模擬”的模式。而這,就帶來(lái)了一個(gè)微妙但關(guān)鍵的變化:原本用于“從預(yù)訓(xùn)練數(shù)據(jù)中檢索事實(shí)”的能力,被部分“擠占”了。

簡(jiǎn)單來(lái)說(shuō),就是模型開(kāi)始更關(guān)注“如何像專(zhuān)家說(shuō)話”,而不是“答案本身是否正確”。這也是為什么在編程和數(shù)學(xué)任務(wù)中,“人設(shè)”反而成為了模型的負(fù)擔(dān)。

不過(guò),雖然準(zhǔn)確性下降,但在人類(lèi)更關(guān)心的“安全”和“規(guī)范”上,人設(shè)提示確實(shí)有明顯幫助。

例如,在安全性測(cè)試中引入一個(gè)類(lèi)似“安全審查員(Safety Monitor)”的人設(shè)后,模型拒絕惡意請(qǐng)求的能力將明顯提升。其中在 JailbreakBench 測(cè)試中:原始模型拒絕率為53.2%,但加了“人設(shè)”后拒絕率提升 17.7 個(gè)百分點(diǎn),變?yōu)?0.9%。


對(duì)開(kāi)發(fā)者來(lái)說(shuō),有點(diǎn)反直覺(jué)的結(jié)論

基于以上發(fā)現(xiàn),研究人員在論文中明確表示:

讓 AI 扮演“專(zhuān)家程序員”,不會(huì)提升代碼質(zhì)量或?qū)嵱眯浴?/blockquote>

這對(duì)很多開(kāi)發(fā)者來(lái)說(shuō),可能是一個(gè)需要“糾正”的習(xí)慣。

因?yàn)樵趯?shí)際使用中,大量開(kāi)發(fā)者的 Prompt 都包含類(lèi)似話術(shù): “你是 Google 級(jí)別的架構(gòu)專(zhuān)家” 、 “你擁有 20 年開(kāi)發(fā)經(jīng)驗(yàn)”……這些描述看似增強(qiáng)了“專(zhuān)業(yè)性”,實(shí)際上并沒(méi)有給模型帶來(lái)任何實(shí)質(zhì)性的能力提升。

不過(guò)研究也指出,雖然“泛化的人設(shè)”沒(méi)什么用,但具體、細(xì)粒度的約束卻是有效的。例如:

● 明確前端框架(React / Vue)

● 指定架構(gòu)模式(微服務(wù) / 單體)

● 限定工具鏈(Docker / Kubernetes)

● 描述代碼風(fēng)格、接口規(guī)范

因?yàn)楸举|(zhì)上來(lái)說(shuō),這些屬于“對(duì)齊信息”、“需求約束”,而不是“身份設(shè)定”,它們的作用是幫助模型更好地對(duì)齊你的目標(biāo),而不是讓它“扮演某個(gè)人”。


一個(gè)更工程化的解法:PRISM

既然人設(shè)提示“有利有弊”,那有沒(méi)有辦法兩者兼顧呢?

針對(duì)這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種新的方法,叫做 PRISM(基于意圖的人設(shè)路由機(jī)制)。它的核心思想有點(diǎn)像“動(dòng)態(tài)開(kāi)關(guān)”:一般情況下保持原始模型,主要確保知識(shí)與準(zhǔn)確性,僅在需要時(shí)啟用“人設(shè)行為”。

在實(shí)現(xiàn)上,它借助了一種叫 LoRA(低秩適配)的技術(shù),通過(guò)一個(gè)“門(mén)控機(jī)制”來(lái)自動(dòng)判斷使用哪種模式。簡(jiǎn)單來(lái)說(shuō),這就讓模型具備一種能力:該認(rèn)真的時(shí)候就認(rèn)真算,該演的時(shí)候再去演。

在論文的最后,研究人員總結(jié)了一條非常實(shí)用的經(jīng)驗(yàn)法則:

● 當(dāng)你更關(guān)心“對(duì)齊”(安全、格式、規(guī)則)時(shí)→可以加人設(shè),并具體描述要求;

● 當(dāng)你更關(guān)心“準(zhǔn)確性和事實(shí)”時(shí)→ 不要加任何設(shè)定,直接提問(wèn)。

某種程度上來(lái)說(shuō),“你是一位專(zhuān)家”這句話,本質(zhì)上更像是寫(xiě)給人看的,而不是寫(xiě)給模型看的——它滿(mǎn)足的是人類(lèi)對(duì)“專(zhuān)業(yè)感”的心理預(yù)期,卻未必真能提升結(jié)果質(zhì)量。

有時(shí)候,想讓模型輸出得更好,并不用讓它“更像人”,而是盡量別干擾它本就擅長(zhǎng)的事情。

參考鏈接:https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬(wàn)美金懸賞!

AMD 2026 線上黑客松大賽來(lái)襲

從 MXFP4 MoE 算子爆改,到真實(shí)千倍并發(fā)下的吞吐量極限拉扯

不看資歷,只看絕對(duì)速度

挑戰(zhàn)DeepSeek?R1/KimiK2.5極致并發(fā)

入圍即能拿 1 萬(wàn)美金

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
晚年米芾寫(xiě)出此大字神作,筆法縱橫莫測(cè),堪稱(chēng)生平不世出的經(jīng)典

晚年米芾寫(xiě)出此大字神作,筆法縱橫莫測(cè),堪稱(chēng)生平不世出的經(jīng)典

幸福娃3790
2026-04-09 11:55:20
你見(jiàn)過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

你見(jiàn)過(guò)老板是怎么把生意干黃的?網(wǎng)友:拿了雙一次性筷子還追出來(lái)

夜深?lèi)?ài)雜談
2026-04-20 09:31:31
蔚來(lái),我算是把你看清了

蔚來(lái),我算是把你看清了

汽車(chē)十三行
2026-04-21 11:56:48
為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

另子維愛(ài)讀史
2026-04-21 20:14:40
中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

中方禁令為何時(shí)隔百天才爆發(fā)?日本媒體不再隱瞞,遮羞布被揭下

誰(shuí)將笑到最后
2026-04-22 17:27:39
汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

汪嘉偉之子汪崎:心疼母親鄧星,再難不“啃”父親,贏得繼母好評(píng)

細(xì)品名人
2026-03-26 07:10:29
2105km續(xù)航,9.79萬(wàn)!比亞迪官宣:新車(chē)上市

2105km續(xù)航,9.79萬(wàn)!比亞迪官宣:新車(chē)上市

新浪財(cái)經(jīng)
2026-04-21 14:30:59
收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
阿斯塔納航空將于6月3日開(kāi)通廣州—阿斯塔納直飛航線

阿斯塔納航空將于6月3日開(kāi)通廣州—阿斯塔納直飛航線

北京商報(bào)
2026-04-21 15:34:11
凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

凱特致敬伊麗莎白女王,戴其生前珍珠項(xiàng)鏈亮相,細(xì)節(jié)盡顯高情商

世界王室那些事
2026-04-22 17:29:57
港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

港媒:兩岸已步入到“準(zhǔn)統(tǒng)一”階段,“西藏模式”更具參考!

娛樂(lè)圈的筆娛君
2026-04-21 17:59:45
美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

環(huán)球趣聞分享
2026-04-22 13:40:09
我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國(guó)肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
特朗普下令“無(wú)限期停戰(zhàn)”,9千萬(wàn)伊朗人熬過(guò)最艱苦時(shí)刻?

特朗普下令“無(wú)限期停戰(zhàn)”,9千萬(wàn)伊朗人熬過(guò)最艱苦時(shí)刻?

牛鍋巴小釩
2026-04-22 16:01:58
603169,被證監(jiān)會(huì)立案!

603169,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-04-22 17:54:29
51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

51歲李健,每天只吃一餐,每周4次健身,身體狀態(tài)像20歲小伙子

馬拉松跑步健身
2026-04-13 22:00:23
解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱(chēng):主席可能被嚇到了

解秀梅大膽擁抱毛主席,多年后呂厚民回憶稱(chēng):主席可能被嚇到了

春秋硯
2026-04-22 11:40:08
iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

iPhone 17突然降價(jià),這應(yīng)該是目前最香的iPhone了

劉奔跑
2026-04-19 23:10:21
蘋(píng)果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

蘋(píng)果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

世界圈
2026-04-04 13:13:03
發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過(guò)成......

發(fā)現(xiàn)了嗎,越是分床睡、經(jīng)濟(jì)AA制、不干涉對(duì)方隱私的夫妻,感情濃度往往越低,越把婚姻過(guò)成......

LULU生活家
2026-04-21 19:20:03
2026-04-22 18:07:00
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26471文章數(shù) 242270關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車(chē)要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
教育
公開(kāi)課
軍事航空

手機(jī)要聞

三劍齊發(fā)!華為nova 16系列已備案:Ultra版謝幕

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽?!

教育要聞

慣子如殺子!孩子這4種表現(xiàn)說(shuō)明已經(jīng)被慣壞了,再不改就來(lái)不及了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長(zhǎng)停火 伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版