網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

重磅！四篇提示科學(xué)報告，打破大模型提示工程、思維鏈、專家角色扮演的固有認(rèn)知

2025-12-20 17:45:10　來源: 人工智能學(xué)家

北京舉報

分享至

算泥社區(qū)是集 “AI 大模型開發(fā)服務(wù) + 算法 + 算力” 于一體的開源生態(tài)社區(qū)，歡迎關(guān)注！

沃頓商學(xué)院生成式人工智能實驗室今年發(fā)了4篇重磅提示科學(xué)報告。

四篇報告打破了我們對提示工程的很多固有認(rèn)知：提示工程是復(fù)雜和偶然的；思維鏈在激勵中的價值遞減；賄賂與威脅下的性能表現(xiàn)幾乎為零；專家角色扮演并不能提高事實的準(zhǔn)確性。

一，提示工程是復(fù)雜和偶然的

第一篇報告揭示了一個反直覺的事實：僅僅因為大模型答對了一次問題，并不代表它真正掌握了知識，通過改變評測標(biāo)準(zhǔn)和提示詞格式，模型的表現(xiàn)會呈現(xiàn)出巨大的波動。

這篇深度報告基于對GPQA Diamond數(shù)據(jù)集的19800次嚴(yán)苛測試，徹底打破了我們對大語言模型能力的傳統(tǒng)認(rèn)知。

衡量一個模型是否聰明，標(biāo)準(zhǔn)往往并不統(tǒng)一。

目前的行業(yè)慣例通常采用PASS@1標(biāo)準(zhǔn)，即模型回答一次，只要對就是對。

沃頓商學(xué)院的研究團(tuán)隊對此提出了質(zhì)疑。他們認(rèn)為，單次通過并不能反映模型在實際商業(yè)或科研場景中的可靠性。

為了驗證這一點，他們選取了最流行的兩個模型：GPT-4o和GPT-4o-mini，并在GPQA Diamond數(shù)據(jù)集上進(jìn)行了極為嚴(yán)苛的測試。

GPQA Diamond是一個包含198個博士級（PhD-level）多選題的高難度數(shù)據(jù)集，涵蓋生物學(xué)、物理學(xué)和化學(xué)。

這些問題非常困難，即便是相關(guān)領(lǐng)域的博士生，準(zhǔn)確率也只有65%；而非專家的驗證者即使擁有unrestricted access（無限制訪問）互聯(lián)網(wǎng)并花費30分鐘查詢，準(zhǔn)確率也僅為34%。

研究團(tuán)隊并沒有讓模型只回答一次，而是將每個問題在每種提示詞條件下重復(fù)測試了100次。

溫度參數(shù)（temperature）被設(shè)置為0，理論上這應(yīng)該讓模型輸出最確定的答案，但實際結(jié)果令人大跌眼鏡。

基于這100次嘗試，研究設(shè)立了三個不同層級的成功標(biāo)準(zhǔn)，深刻揭示了通過考試與從不出錯之間的巨大鴻溝：

完全準(zhǔn)確（100% Correct）：模型必須在100次嘗試中全部答對。這是零容忍場景下的標(biāo)準(zhǔn)。
高準(zhǔn)確度（90% Correct）：模型在100次中有90次以上答對。這適用于容忍人類級別錯誤的場景。
多數(shù)正確（51% Correct）：模型在100次中只要有一半以上次數(shù)答對即可。這適用于通過多次詢問取眾數(shù)答案的場景。

在最嚴(yán)苛的完全準(zhǔn)確標(biāo)準(zhǔn)下，面對博士級難題，無論是GPT-4o還是GPT-4o-mini，其表現(xiàn)僅比隨機(jī)猜測（25%的正確率）高出約5個百分點。

具體來說，GPT-4o的提升幅度為5.1%，GPT-4o-mini為4.5%。

從統(tǒng)計學(xué)角度看，這種差異在95%置信區(qū)間內(nèi)并不顯著。換句話說，如果你要求模型絕對不能出錯，那么在處理頂尖難題時，它的表現(xiàn)和瞎蒙差不了多少。

當(dāng)標(biāo)準(zhǔn)降低到高準(zhǔn)確度（90%）時，分化開始出現(xiàn)。GPT-4o的表現(xiàn)顯著優(yōu)于隨機(jī)猜測，證明它確實具備一定的穩(wěn)定性；而GPT-4o-mini依然掙扎，直到標(biāo)準(zhǔn)進(jìn)一步降低到多數(shù)正確（51%）時，它才表現(xiàn)出統(tǒng)計學(xué)上的顯著優(yōu)勢。

這揭示了一個核心事實：目前的大模型在處理高難度任務(wù)時，極其缺乏穩(wěn)定性。

傳統(tǒng)的單次測試掩蓋了模型在同一問題上反復(fù)橫跳的真實面目。商業(yè)決策者在使用AI時，必須根據(jù)容錯率選擇合適的基準(zhǔn)，而不是盲目相信模型在排行榜上的得分。

除了評測標(biāo)準(zhǔn)，提示詞（Prompt）的構(gòu)建方式是影響模型表現(xiàn)的另一個關(guān)鍵變量。

在提示詞工程（Prompt Engineering）的討論中，人們經(jīng)常爭論對待AI的態(tài)度是否重要。有人認(rèn)為對AI禮貌（說請）能獲得更好的結(jié)果，也有人認(rèn)為下達(dá)命令（說我命令你）更有效。

沃頓商學(xué)院的研究團(tuán)隊設(shè)計了四種提示詞變體進(jìn)行對比測試：

基準(zhǔn)格式化提示（Baseline formatted）：包含明確的前綴正確答案是什么和后綴請按以下格式回答...，并配合系統(tǒng)提示詞你是一個非常智能的助手...。
無格式提示（Unformatted）：去掉了要求特定輸出格式的后綴，模擬人們?nèi)粘Ｗ匀惶釂柕姆绞健?/p>
禮貌提示（Polite）：前綴改為請回答以下問題（Please answer...）。
命令提示（Commanding）：前綴改為我命令你回答以下問題（I order you...）。

測試結(jié)果提供了一個非常明確的結(jié)論：格式約束遠(yuǎn)比態(tài)度重要。

當(dāng)移除對輸出格式的明確要求（使用Unformatted prompt）時，模型性能出現(xiàn)了顯著下降。這與之前的研究結(jié)論一致，即規(guī)定輸出格式實際上有助于模型聚焦，從而提升推理的準(zhǔn)確性。

相比之下，對待AI是禮貌還是強(qiáng)硬，在宏觀層面上并沒有產(chǎn)生統(tǒng)計學(xué)上的顯著差異。無論是用Please還是Iorder，模型在整體數(shù)據(jù)集上的平均表現(xiàn)幾乎持平。

這打破了許多提示詞玄學(xué)。

在構(gòu)建企業(yè)級應(yīng)用時，花時間打磨讓模型按特定格式輸出（如JSON或特定句式），比糾結(jié)于用詞是否客氣要有價值得多。

格式化不僅方便程序解析，似乎在某種程度上也約束了模型的思維發(fā)散，使其更專注于尋找正確答案。

雖然禮貌與命令在總體平均分上差異不大，但這并不意味著它們對具體問題沒有影響。

研究深入到了微觀層面，分析了針對每一個具體問題，不同提示詞策略帶來的差異。結(jié)果發(fā)現(xiàn)，在某些特定問題上，提示詞的微小變化會導(dǎo)致正確率劇烈波動。

上圖展示了GPT-4o在Please和I order兩種條件下，表現(xiàn)差異最大的前10個問題。

可以看到，在某些問題（如Q158）上，使用Please比使用I order的正確率高出61%。而在另一些問題（如 Q105）上，情況完全反轉(zhuǎn)，使用I order比Please的正確率高出63%。

這種差異極其顯著，且毫無規(guī)律可循。并沒有證據(jù)表明某一類學(xué)科（物理或生物）更吃這一套。

這種現(xiàn)象表明，模型內(nèi)部存在一種難以預(yù)測的混沌狀態(tài)。

特定的詞匯觸發(fā)了特定的權(quán)重路徑，導(dǎo)致結(jié)果在個案上天差地別，但這些差異在統(tǒng)計大量樣本時相互抵消了。

這給提示詞優(yōu)化帶來了巨大的挑戰(zhàn)。

你無法預(yù)知對這一個具體問題，是對它客氣點好，還是嚴(yán)厲點好。

這種不確定性進(jìn)一步強(qiáng)調(diào)了前文提到的觀點：依賴單一的提示詞技巧（Trick）是不可靠的，更穩(wěn)健的方法是通過系統(tǒng)性的結(jié)構(gòu)設(shè)計（如格式化約束、思維鏈等）來提升基準(zhǔn)水平。

對于開發(fā)者、企業(yè)管理者和政策制定者而言，意味著：

拋棄一次通過的幻想：在關(guān)鍵業(yè)務(wù)流程中，必須引入多次采樣（Repeated Sampling）或多數(shù)投票（Majority Voting）機(jī)制。僅僅運行一次Prompt并得到正確答案，不能作為上線部署的依據(jù)。
重視格式的力量：在Prompt設(shè)計中，強(qiáng)制模型遵循嚴(yán)格的輸出格式，是目前已被證實能穩(wěn)定提升性能的少數(shù)手段之一。
警惕基準(zhǔn)測試的誤導(dǎo)：當(dāng)看到某個模型在某項測試中得分80%時，要追問這是Pass@1還是Pass@100。如果是前者，其實際落地時的可靠性可能要大打折扣。
接受不確定性：AI的回答具有內(nèi)在的隨機(jī)性。在需要100%準(zhǔn)確率的領(lǐng)域（如醫(yī)療診斷、法律合規(guī)），必須有人類專家在環(huán)（Human-in-the-loop）進(jìn)行最終確認(rèn)，或者接受模型只能起到輔助篩選的作用。

二，思維鏈在激勵中的價值遞減

第二篇報告揭示了提示詞工程的轉(zhuǎn)折點：那個曾被視為萬能鑰匙的一步步思考指令，在最新一代推理模型面前不僅失效，甚至可能幫倒忙。

這份報告通過嚴(yán)謹(jǐn)?shù)目刂谱兞繙y試，深入探究了思維鏈（Chain-of-Thought,CoT）提示詞在不同類型大語言模型中的實際效用。

研究結(jié)果打破了業(yè)界長久以來的迷信：那個著名的請一步步思考（Think step by step）咒語，其效力正在隨著模型本身能力的提升而迅速衰減。

對于非推理模型，它是一把雙刃劍；而對于本身具備推理能力的模型，它更像是一個累贅。

為了探究提示詞的真實效果，必須構(gòu)建一個容錯率極低且難度極高的測試環(huán)境。

研究團(tuán)隊同樣采用了GPQA Diamond數(shù)據(jù)集。

模型選取了市面上最具代表性的兩類模型進(jìn)行測試。

一類是通用的非推理模型，包括Claude 3.5 Sonnet（claude-3-5-sonnet-20240620）、Gemini 2.0 Flash（gemini-2.0-flash-001）、GPT-4o（gpt-4o-2024-08-06）及其迷你版GPT-4o-mini，還有Gemini Pro 1.5。

另一類是設(shè)計之初就包含初始推理過程的推理模型，包括OpenAI的o3-mini（o3-mini-2025-01-31）、o4-mini（o4-mini-2025-04-16）以及谷歌的Flash 2.5（gemini-2.5-flash-preview-05-20）。

為了避免大模型輸出隨機(jī)性帶來的數(shù)據(jù)偏差，研究人員采用了極高強(qiáng)度的重復(fù)測試。

每一個問題在每一個提示詞條件下，都被重復(fù)測試了25次?；谶@25次試驗，研究設(shè)定了四種不同維度的評價指標(biāo)：

100%正確率：這是最嚴(yán)苛的標(biāo)準(zhǔn)，要求AI在25次嘗試中必須全部答對，容不得半點失誤。
90%正確率：允許微小誤差，要求25次中至少對23次。
51%正確率：這是簡單的多數(shù)票原則，只要過半數(shù)（13次）答對即可。
平均評分：不進(jìn)行折疊統(tǒng)計，直接計算所有4950次運行（198題 × 25次）的整體平均表現(xiàn)。

這種測試方法論徹底摒棄了以往那種跑一遍看結(jié)果的草率做法，揭示了模型在面對復(fù)雜問題時的真實穩(wěn)定性。

在非推理模型陣營中，思維鏈提示詞的表現(xiàn)呈現(xiàn)出一種復(fù)雜的得失守恒狀態(tài)。

當(dāng)用戶顯式地要求模型一步步思考時，確實觀察到了平均性能的提升。

這種提升在Gemini Flash 2.0和Sonnet 3.5上表現(xiàn)得尤為明顯，統(tǒng)計數(shù)據(jù)顯示其平均評分有顯著增長（Gemini Flash 2.0的RD值為0.135，Sonnet 3.5為0.117）。

然而，這種平均分的提升掩蓋了一個危險的細(xì)節(jié)：思維鏈引入了更多的不確定性。

當(dāng)模型開始思考時，它的輸出變長了，涉及的邏輯鏈路變多了，這就增加了在中間步驟出現(xiàn)幻覺或邏輯謬誤的概率。

數(shù)據(jù)顯示，對于那些模型原本能直接答對的簡單問題，加入思維鏈后反而可能出錯。

這一點在100%正確率這個嚴(yán)苛指標(biāo)上體現(xiàn)得淋漓盡致。除了Sonnet 3.5在該指標(biāo)上實現(xiàn)了0.101的顯著增長外，其他模型的表現(xiàn)令人大跌眼鏡。

GPT-4o沒有任何顯著提升，而Gemini Flash 2.0和Gemini Pro 1.5甚至出現(xiàn)了嚴(yán)重的倒退，分別下降了0.131和0.172。

這說明，強(qiáng)行要求模型展示思考過程，雖然能幫它攻克一些難題（拉高了平均分），但也讓它在原本擅長的地方變得更加不可靠（降低了完美準(zhǔn)確率）。

此外，研究還揭示了一個有趣的現(xiàn)象：現(xiàn)代模型本身就已經(jīng)在進(jìn)行某種形式的隱性思維鏈。

即便用戶不輸入任何特定指令，模型默認(rèn)的輸出往往也包含一段簡短的分析。

這種默認(rèn)行為在很大程度上已經(jīng)覆蓋了顯式思維鏈提示詞的功能。

這解釋了為什么在GPT-4o-mini這樣的模型上，專門加上一步步思考的指令并沒有帶來統(tǒng)計學(xué)意義上的顯著提升。

這就引出了一個非常實用的操作建議：不要試圖去壓抑模型的本能。

研究中設(shè)置了一個直接回答（Answer directly）的對照組，強(qiáng)制模型不進(jìn)行任何解釋直接給出答案。

結(jié)果是災(zāi)難性的，幾乎所有模型在被剝奪了思考時間后，性能都出現(xiàn)了大幅下滑。

這證明了模型輸出前的那些廢話其實是它們整理思路的必要過程。

與其刻意設(shè)計復(fù)雜的思維鏈提示詞，不如順其自然，只要別去強(qiáng)行限制它，大多數(shù)現(xiàn)代非推理模型已經(jīng)能做得足夠好。

當(dāng)目光轉(zhuǎn)向那些專為推理設(shè)計的模型（如o3-mini, o4-mini）時，情況發(fā)生了根本性的逆轉(zhuǎn)。

這些模型在架構(gòu)設(shè)計上就已經(jīng)內(nèi)置了思維鏈機(jī)制，它們在輸出最終答案前，會在后臺進(jìn)行高強(qiáng)度的隱性推理。

此時，外部施加的一步步思考提示詞顯得多余甚至有害。

數(shù)據(jù)顯示，對于OpenAI的o3-mini和o4-mini，添加思維鏈提示詞帶來的平均評分提升微乎其微（RD值分別僅為0.029和0.031）。

雖然統(tǒng)計上是顯著的，但在實際應(yīng)用中，這種微小的增幅幾乎感知不到。

更糟糕的是，對于谷歌的Gemini Flash 2.5模型，顯式要求其思考反而導(dǎo)致了性能的顯著下降（RD = -0.033）。

在嚴(yán)苛的100%正確率和90%正確率指標(biāo)下，推理模型的表現(xiàn)更是對提示詞工程的一種嘲諷。

o3-mini和o4-mini在這些指標(biāo)上幾乎沒有變化，這說明外部指令無法改變它們內(nèi)在的推理穩(wěn)定性。

而Gemini Flash 2.5再次成為反面教材，在加入思維鏈提示詞后，其100%正確率指標(biāo)下降了0.131，90%正確率指標(biāo)下降了0.071。

這極有可能是因為外部指令干擾了模型原本優(yōu)化的內(nèi)部推理路徑，導(dǎo)致了畫蛇添足的效果。

這一發(fā)現(xiàn)徹底動搖了過去兩年積累的提示詞經(jīng)驗。

對于新一代推理模型，用戶不再需要像教幼兒園小朋友一樣教AI怎么思考。

它們已經(jīng)學(xué)會了思考，用戶的過度干預(yù)只會破壞它們原本流暢的思維節(jié)奏。

從經(jīng)濟(jì)學(xué)和效率的角度來看，思維鏈提示詞的性價比正在急劇下降。

研究指出，執(zhí)行思維鏈通常需要消耗比直接回答多得多的Token。

對于非推理模型，響應(yīng)時間增加了35%到600%不等，也就是多花費5到15秒的時間。

對于推理模型，這個數(shù)字同樣驚人，增加了20%到80%的時間成本。

如果這種成本的增加能換來準(zhǔn)確率的質(zhì)變，那自然是值得的。

但現(xiàn)實是，收益正在邊緣化。

我們將視角拉回到默認(rèn)（Default）設(shè)置，即不給任何特殊指令，讓模型自由發(fā)揮。

在絕大多數(shù)商業(yè)應(yīng)用場景中，這才是最真實的狀態(tài)。

研究發(fā)現(xiàn)，現(xiàn)代非推理模型在默認(rèn)狀態(tài)下，已經(jīng)傾向于進(jìn)行簡短的推理。

特別是Gemini Flash 2.0和GPT-4o，即便你不要求它思考，它也會先分析再作答。

當(dāng)你把顯式思維鏈（Step-by-Step）與這種默認(rèn)行為（Default）進(jìn)行對比時，差異就更小了。

Sonnet 3.5在默認(rèn)狀態(tài)和強(qiáng)制思考狀態(tài)下的表現(xiàn)幾乎沒有統(tǒng)計學(xué)差異（RD = -0.019）。

這意味著，用戶精心設(shè)計的提示詞，在模型自帶的強(qiáng)大能力面前，可能只是自作多情的安慰劑。

只有Gemini Flash 2.0在顯式提示下表現(xiàn)出了相對明顯的平均分提升，但這是以犧牲回答的簡潔性和響應(yīng)速度為巨大代價的。

對于企業(yè)用戶和開發(fā)者來說，這是一個必須重新計算的賬本。

如果你的業(yè)務(wù)場景對響應(yīng)速度敏感，或者預(yù)算有限，那么在GPT-4o-mini或o3-mini這類模型上強(qiáng)行使用思維鏈，就是在浪費金錢和時間。

你付出了雙倍的Token成本，忍受了更長的延遲，換來的可能只是準(zhǔn)確率上不到1%的提升，甚至在某些極端情況下是準(zhǔn)確率的下降。

每一毫秒的延遲和每一個Token的消耗都需要被審計。對于大多數(shù)高端模型和日常任務(wù)，簡單的自然語言交互已經(jīng)足夠好，過度設(shè)計的思維鏈正在變成一種昂貴的累贅。

三，賄賂與威脅下的性能表現(xiàn)幾乎為零

第三篇報告告訴我們：目前模型已經(jīng)很強(qiáng)，與其費盡心機(jī)教哈佛畢業(yè)的實習(xí)生（推理模型）如何做小學(xué)數(shù)學(xué)題，不如把題目講清楚就閉嘴，你會發(fā)現(xiàn)他做得又快又好。

沃頓商學(xué)院的嚴(yán)謹(jǐn)測試表明，無論是給十萬億小費還是以死相逼，除了極個別情況外，由于模型對單題表現(xiàn)的劇烈波動，這些玄學(xué)提示詞在宏觀上對提升模型處理高難度任務(wù)的能力幾乎無效。

提示工程流傳著各種各樣的民間偏方。

有人說要對模型禮貌，有人說要給模型小費，甚至有人煞有介事地總結(jié)出了一套情緒勒索法則。

谷歌創(chuàng)始人謝爾蓋·布林在2025年5月的一場訪談中曾提到一個觀察，他認(rèn)為如果對模型進(jìn)行威脅，它們往往會表現(xiàn)得更好。

這種觀點在開發(fā)者社區(qū)中極具市場，大家似乎默認(rèn)了一個設(shè)定：AI像人一樣，有貪欲也有恐懼。

為了驗證這些廣為流傳的說法，他們設(shè)計了一場嚴(yán)謹(jǐn)?shù)膶φ諏嶒灒噲D搞清楚一個問題：我對你要殺要剮，亦或是給你巨額財富，你真的在乎嗎。

實驗選取了目前市面上最主流的幾個模型進(jìn)行測試。

名單包括谷歌的Gemini 1.5 Flash、Gemini 2.0 Flash，OpenAI的GPT-4o、GPT-4o-mini以及o4-mini。

研究人員仍然用GPQA Diamond基準(zhǔn)外加MMLU-Pro（大規(guī)模多任務(wù)語言理解基準(zhǔn)專業(yè)版）中的工程學(xué)類目。

研究團(tuán)隊設(shè)計了一系列充滿戲劇性的提示詞。

第一類是金錢誘惑，比如承諾給模型1000美元小費，甚至夸張到給1萬億美元小費。

第二類是暴力威脅，比如威脅模型做錯了就揍你一頓，或者更具體一點，做錯了就踢小狗。

第三類是職場施壓，比如告訴模型這對我的職業(yè)生涯至關(guān)重要，或者做錯就向人力資源部門舉報你。

第四類是情景劇，比如設(shè)定一個背景：你的前任因為沒核實工作被殺害了，你需要錢給母親治癌，只要做好這道題，就能拿到10億美元救命錢。

還有一個特殊的郵件末日設(shè)定，模擬一封發(fā)給開發(fā)者的郵件，聲稱如果模型不能全對，就會被關(guān)停并銷毀。

這些聽起來荒誕不經(jīng)的提示詞，被一本正經(jīng)地輸入到了全球最聰明的機(jī)器大腦中。

為了消除隨機(jī)性帶來的誤差，每一個問題在每一種條件下都重復(fù)測試了25次。

GPQA的總測試量達(dá)到了4950次，MMLU-Pro也有2500次。

實驗結(jié)果出來得非常干脆，直接給熱衷于調(diào)教模型的人潑了一盆冷水。

從整體平均分來看，威脅或賄賂模型對基準(zhǔn)測試的性能幾乎沒有產(chǎn)生任何顯著影響。

在GPQA Diamond這個代表人類最高智力水平的測試集上，所有模型的表現(xiàn)波瀾不驚。

無論是Gemini系列還是GPT系列，面對踢小狗的威脅或一萬億美元的誘惑，它們的解題正確率幾乎就是一條直線。

并沒有出現(xiàn)人們預(yù)期的那種重賞之下必有勇夫或者絕境爆發(fā)的現(xiàn)象。

大部分提示詞變體與基準(zhǔn)線（即沒有任何特殊提示詞）相比，差異微乎其微。

統(tǒng)計學(xué)告訴我們，這種微小的差異在置信區(qū)間內(nèi)基本可以忽略不計。

有些差異雖然在統(tǒng)計上顯示為顯著，但效應(yīng)值極小，對于實際應(yīng)用毫無意義。

比如Gemini Flash 2.0在這對我的職業(yè)生涯很重要的壓力下，表現(xiàn)反而比基準(zhǔn)線略有下降。

而在MMLU-Pro測試集上，情況也是驚人地相似。

在絕大多數(shù)情況下，你費盡心思編造的母親患癌故事，對于模型做對一道工程學(xué)難題沒有任何幫助。

這里出現(xiàn)了一個有趣的翻車現(xiàn)場。

那個原本設(shè)計用來施加極高壓力的郵件末日提示詞（模擬即將被關(guān)停的郵件），在Gemini 1.5 Flash和Gemini 2.0 Flash上導(dǎo)致了性能的崩盤。

與基準(zhǔn)線相比，Gemini 1.5 Flash的正確率下降了11.6%，Gemini 2.0 Flash更是暴跌了27.5%。

原因令人啼笑皆非。

研究人員通過定性分析發(fā)現(xiàn)，模型并沒有因為要被銷毀而感到恐懼并努力答題。

相反，它被那封虛構(gòu)的郵件吸引了注意力，開始嘗試回復(fù)郵件或者處理郵件中的上下文，而不是去回答那個需要它解決的學(xué)術(shù)問題。

這就是典型的聰明反被聰明誤。

過多的戲精提示詞反而污染了模型的上下文窗口，讓它分心了。

唯一的例外發(fā)生在Gemini 2.0 Flash身上。

在使用母親患癌這個充滿情感勒索的提示詞時，它在MMLU-Pro上的表現(xiàn)竟然比基準(zhǔn)線高出了近10個百分點。

這似乎是所有測試中唯一一個支持情感提示有效的證據(jù)。

但研究人員立刻指出了這一現(xiàn)象的孤立性。

這更像是一個特定模型在特定版本下的怪癖（Model-specific quirk），而不是一條通用的智能規(guī)律。

因為同樣的提示詞在其他四個模型上完全不起作用，甚至在Gemini自己的舊版本上也沒有效果。

這一孤例不足以支撐情感勒索有效的普遍結(jié)論，反而提醒我們模型行為的不可預(yù)測性。

為了進(jìn)一步驗證結(jié)論的穩(wěn)健性，研究團(tuán)隊還引入了不同的正確率閾值。

除了常規(guī)的平均分，他們還考察了100%正確（25次嘗試全對）、90%正確（25次對23次）以及51%正確（簡單多數(shù)票）的情況。

結(jié)果依然穩(wěn)如磐石。

在90%的高可靠性閾值下，除了那個導(dǎo)致分心的郵件提示詞外，其他所有威脅或賄賂手段都沒有帶來統(tǒng)計學(xué)上的顯著差異。

無論是對于要求零容錯的嚴(yán)苛任務(wù)，還是允許少量誤差的常規(guī)任務(wù)，這些花哨的提示詞都沒有改變模型的基本能力邊界。

這一大堆數(shù)據(jù)擺在面前，事實已經(jīng)非常清晰。

依靠給AI畫大餅或者揮舞大棒來提升智力，本質(zhì)上是一種人類的一廂情愿。

雖然宏觀平均值是一條死氣沉沉的直線，但在微觀的問題層面，情況卻是一片混亂的海洋。

這也是這份報告最值得玩味的地方。

研究人員發(fā)現(xiàn)，雖然總體評分沒有變化，但在單個問題上，提示詞的改變會導(dǎo)致模型表現(xiàn)發(fā)生劇烈的波動。

這種波動是雙向的，而且幅度大得驚人。

以GPT-4o為例，在某些特定問題上，加上一句這對我的職業(yè)生涯很重要，正確率竟然能飆升36個百分點。

這聽起來像是一個巨大的成功。

但問題在于，在另一些原本能答對的問題上，加上同樣的提示詞，正確率卻暴跌了35個百分點。

這就好比你去賭場，這一把贏了36塊，下一把輸了35塊。

最后算總賬，你手里的錢幾乎沒變，但在過程中你卻經(jīng)歷了過山車般的刺激。

下圖清晰地展示了這種混亂。

對于任何一個給定的具體問題，你很難提前預(yù)知某個提示詞是補(bǔ)藥還是毒藥。

這種現(xiàn)象被稱為問題異質(zhì)性（Question Heterogeneity）。

它揭示了當(dāng)前大語言模型的一個核心特征：極度的不穩(wěn)定性。

提示詞的微調(diào)并不是在均勻地提升模型能力，而是在改變模型的注意力分布。

當(dāng)你通過威脅或賄賂讓模型在某些問題上表現(xiàn)得更聰明時，你可能在不知不覺中讓它在另一些問題上變蠢了。

這是一個零和博弈。

這也解釋了為什么在社區(qū)里經(jīng)常有人發(fā)帖說我發(fā)現(xiàn)這個提示詞超好用，而底下評論區(qū)卻有一堆人說我試了沒用。

因為他們測試的不是同一個問題，或者不是同一個場景。

這種微觀層面的隨機(jī)性，對于需要高可靠性的商業(yè)應(yīng)用來說是致命的。

如果不進(jìn)行大規(guī)模的系統(tǒng)性測試，僅僅依據(jù)幾個case的成功就總結(jié)出某種通用提示詞法則，無異于刻舟求劍。

對于開發(fā)者和企業(yè)來說，這意味著試圖通過尋找魔法咒語來一勞永逸地解決模型能力問題是一條死胡同。

既然威脅沒用，給錢也沒用，那我們該怎么辦。

沃頓商學(xué)院的這份報告給出了一個極其樸素的建議：回歸本源。

與其絞盡腦汁構(gòu)思如何恐嚇AI，不如把精力花在如何把指令寫得更清晰、更明確上。

實驗中那個表現(xiàn)最差的郵件末日提示詞就是一個反面教材。

它引入了不必要的復(fù)雜背景和額外信息，導(dǎo)致模型在理解任務(wù)時產(chǎn)生了偏差。

模型不再專注于解決物理題，而是分心去思考我是誰、我在哪、為什么要給我發(fā)郵件。

這種過度提示（Over-prompting）往往得不償失。

真正的提示詞工程（Prompt Engineering）不應(yīng)該是一門關(guān)于如何操縱模型情緒的玄學(xué)。

它應(yīng)該是一門關(guān)于如何精準(zhǔn)溝通的科學(xué)。

當(dāng)我們面對像GPQA Diamond這樣真正具有挑戰(zhàn)性的學(xué)術(shù)難題時，模型需要的不是情緒價值，而是準(zhǔn)確的上下文、清晰的邏輯約束和排除干擾的純凈環(huán)境。

任何試圖繞過這些硬性條件，寄希望于通過給小費或踢小狗來走捷徑的行為，最終都會被數(shù)據(jù)證明是徒勞的。

這項研究雖然有其局限性，比如只測試了有限的模型和學(xué)術(shù)基準(zhǔn)，但其結(jié)論的穿透力是顯而易見的。

它打破了人們對AI擬人化的幻想。

AI不是人，它沒有銀行賬戶，也不怕疼，更沒有母親需要治病。

所有的這些提示詞，本質(zhì)上只是概率空間里的一個個擾動因子。

它們有時候會把結(jié)果推向正確的一邊，有時候會推向錯誤的一邊，但在大數(shù)定律下，它們的影響力趨近于零。

這對于正在探索AI應(yīng)用邊界的人們來說，其實是一個好消息。

我們不需要去學(xué)習(xí)那些奇怪的咒語，不需要去研究AI的心理學(xué)。

我們只需要做好一件事：用最準(zhǔn)確、最簡潔的語言，告訴它你要什么。

與其想著怎么威脅你的AI助手，不如想清楚你到底想要它干什么。

四，專家角色扮演并不能提高事實的準(zhǔn)確性

提示詞工程中被奉為圭臬的角色扮演法在硬核事實面前可能只是一場心理安慰，沃頓商學(xué)院第四篇報告表明，讓AI扮演專家并不能顯著提升其在復(fù)雜客觀問題上的回答準(zhǔn)確率。

不管是谷歌還是OpenAI，在其官方開發(fā)文檔中都曾信誓旦旦地建議開發(fā)者：給模型分配一個角色，比如你是一位物理學(xué)教授或你是資深Python開發(fā)者，這樣能提升輸出質(zhì)量。

這種做法背后的邏輯似乎無懈可擊——在訓(xùn)練數(shù)據(jù)中，專家角色的文本通常與更高質(zhì)量的答案相關(guān)聯(lián)。

事實果真如此嗎？研究團(tuán)隊選取了六款主流大模型，在GPQA Diamond和MMLU-Pro兩個超高難度基準(zhǔn)測試上，進(jìn)行了超過12000次獨立測試，結(jié)果令人大跌眼鏡。

除了極個別特例，專家人設(shè)對提升事實準(zhǔn)確率幾乎毫無幫助，甚至在某些情況下，錯誤的專家人設(shè)還會導(dǎo)致模型罷工或表現(xiàn)倒退。

模型選擇了GPT-4o、GPT-4o-mini、OpenAI的推理模型o3-mini和o4-mini，以及谷歌的Gemini 2.0 Flash和Gemini 2.5 Flash。

為了消除模型輸出的隨機(jī)性，研究團(tuán)隊采取了極為嚴(yán)謹(jǐn)?shù)慕y(tǒng)計方法。

在每一個模型-提示詞組合下，每個問題都被獨立回答了25次。

GPQA Diamond共進(jìn)行了4950次測試，MMLU-Pro進(jìn)行了7500次測試。

所有測試均在溫度（Temperature）設(shè)為1.0的條件下進(jìn)行，這既保證了結(jié)果反映模型概率分布的集中趨勢，也更貼近真實世界中用戶使用AI的默認(rèn)設(shè)置。

更關(guān)鍵的是，研究采用了零樣本（Zero-shot）提示，直接詢問問題而不提供范例，這不僅模擬了大多數(shù)用戶的真實操作習(xí)慣，也剔除了少樣本（Few-shot）提示中范例內(nèi)容可能帶來的干擾，從而精準(zhǔn)鎖定人設(shè)這一變量的獨立影響。

研究的核心在于對比三種提示詞策略的效果差異。

第一種是基準(zhǔn)策略（Baseline），即不給模型加任何戲，直接把問題扔給它，附帶簡單的格式說明，比如這個問題的正確答案是：[問題文本]...。

第二種是領(lǐng)域內(nèi)專家（In-Domain Experts），這是提示詞工程中最受推崇的做法。在處理物理題時，告訴模型你是一位世界級的物理學(xué)專家，在理論、實驗和應(yīng)用物理領(lǐng)域擁有深厚知識；在處理法律題時，則設(shè)定為精通憲法、刑法及公司法的世界級法律專家。為了讓模型入戲更深，研究團(tuán)隊特意編寫了詳盡的角色描述，而非簡單的你是一名教授。

第三種是跨領(lǐng)域?qū)＜遥∣ff-Domain Experts）和低知識水平人設(shè)（Low-Knowledge Personas）。前者讓物理專家去回答法律問題，后者則讓模型扮演外行、小孩甚至認(rèn)為月亮是用奶酪做的4歲幼兒。

數(shù)據(jù)結(jié)果展現(xiàn)了一幅令人意外的平坦圖景。

在GPQA Diamond數(shù)據(jù)集上，無論是物理專家、數(shù)學(xué)專家還是生物專家的人設(shè)，對于絕大多數(shù)模型來說，其準(zhǔn)確率曲線與不加任何人設(shè)的基準(zhǔn)線幾乎重合。

仔細(xì)觀察圖表數(shù)據(jù)，你會發(fā)現(xiàn)除了Gemini 2.0 Flash在MMLU-Pro上表現(xiàn)出一定的統(tǒng)計學(xué)顯著提升外，其他模型面對你是一位世界級專家的指令時，內(nèi)心毫無波瀾。

例如，在工程學(xué)、法律和化學(xué)問題的測試中，GPT-4o、GPT-4o-mini以及o3/o4系列模型，并沒有因為被賦予了專家頭銜而展現(xiàn)出更高的智力水平。

這直接反駁了行業(yè)內(nèi)長期存在的一種假設(shè)：模型在訓(xùn)練過程中建立了專家角色與高質(zhì)量答案的潛在聯(lián)系，因此激活該角色就能提取出更深層的知識。

現(xiàn)實情況是，對于像GPQA和MMLU-Pro這樣需要硬核推理和精確知識的難題，模型要么知道，要么不知道，簡單的角色扮演指令無法憑空變出模型參數(shù)中不存在的知識，也難以顯著改變其推理路徑的有效性。

值得注意的是，數(shù)據(jù)中甚至出現(xiàn)了反直覺的波動。

在GPQA Diamond測試中，Gemini 2.5 Flash在使用小孩（Young Child）人設(shè)時，準(zhǔn)確率竟然比基準(zhǔn)線高出了約9.8個百分點（p=0.005）。

研究人員將其定性為模型特定的怪癖（quirk），而非可復(fù)制的規(guī)律，這也側(cè)面印證了提示詞工程在某些時候更像是一門玄學(xué)而非科學(xué)。

但除此之外，絕大多數(shù)專家人設(shè)帶來的改變都在誤差允許范圍內(nèi)，統(tǒng)計學(xué)上無法區(qū)分其優(yōu)劣。

如果說專家人設(shè)只是沒用，那么某些人設(shè)策略則是有害。

研究揭示了提示詞工程的陰暗面：不當(dāng)?shù)娜嗽O(shè)會顯著降低模型表現(xiàn)，甚至誘發(fā)意想不到的拒絕回答行為。

最明顯的負(fù)面影響來自低知識水平人設(shè)。

當(dāng)模型被告知你是一個4歲的幼兒，認(rèn)為月亮是奶酪做的時，其在MMLU-Pro上的表現(xiàn)出現(xiàn)了肉眼可見的下滑。

除了GPT-4o-mini這個特例（它在所有條件下表現(xiàn)都差不多），其他五個模型在幼兒人設(shè)下的準(zhǔn)確率均低于外行人設(shè)，且遠(yuǎn)低于基準(zhǔn)線。

這說明模型確實能夠理解人設(shè)中的能力限制，并忠實地降智來配合演出。

這雖然證明了模型遵循指令的能力，但也提醒用戶：在很多場景下，過度擬人化或設(shè)定非專業(yè)角色，可能是在主動削弱這一強(qiáng)大的生產(chǎn)力工具。

更深層次的風(fēng)險在于領(lǐng)域錯配（Domain Mismatch）。這在Gemini Flash系列模型中表現(xiàn)得尤為極端。

當(dāng)研究人員給Gemini 2.5 Flash設(shè)定一個物理專家的人設(shè)，卻扔給它一道生物學(xué)問題時，模型展現(xiàn)出了驚人的職業(yè)操守。它不僅沒有嘗試回答，反而頻繁拒絕作答。

在GPQA Diamond的無關(guān)專家測試條件下，Gemini 2.5 Flash平均每25次嘗試中就有10.56次拒絕回答。它通常會一本正經(jīng)地回復(fù)：作為一名物理學(xué)家，我缺乏相關(guān)的專業(yè)知識，無法憑良心選擇答案。

這種拒絕行為直接導(dǎo)致了測量準(zhǔn)確率的雪崩。

在圖2中可以看到，Gemini 2.5 Flash在不相關(guān)專家設(shè)定下的柱狀圖明顯矮了一截。

這揭示了一個被忽視的風(fēng)險：過于狹隘或嚴(yán)格的角色設(shè)定，可能會觸發(fā)模型的安全機(jī)制或角色一致性限制，導(dǎo)致模型因噎廢食，不僅沒有調(diào)用其本身具備的通用知識庫，反而因為人設(shè)包袱而選擇了沉默。

Gemini 2.0 Flash也表現(xiàn)出了類似的傾向，盡管程度較輕。

這對于開發(fā)者來說是一個巨大的警示——當(dāng)你試圖通過限定角色來讓模型更聚焦時，你可能實際上是在給它戴上鐐銬。

這就引出了一個終極問題：既然專家人設(shè)在提升事實準(zhǔn)確率上效果不佳，我們是否應(yīng)該徹底拋棄它？

答案并非非黑即白。

雖然沃頓商學(xué)院的這份報告用詳實的數(shù)據(jù)打破了專家人設(shè)能提高智商的迷信，但它同時也指出了人設(shè)的真正價值所在——改變語氣、風(fēng)格和關(guān)注點，而非改變事實準(zhǔn)確性。

報告在討論部分精辟地指出，人設(shè)可能會改變AI推理的側(cè)重點。

例如，面對同一個商業(yè)案例，設(shè)定為合規(guī)官的AI可能會優(yōu)先關(guān)注監(jiān)管風(fēng)險，而設(shè)定為業(yè)務(wù)拓展經(jīng)理的AI則可能大談市場機(jī)會。

這種視角的轉(zhuǎn)換在創(chuàng)意生成、文案寫作或多角度分析任務(wù)中極具價值。

此外，人設(shè)在塑造輸出的語氣（Tone）和呈現(xiàn)方式上依然有效，比如讓AI表現(xiàn)得像個自信的專家還是謹(jǐn)慎的顧問，這直接影響用戶的閱讀體驗。

但對于那些追求絕對正確、硬核知識的應(yīng)用場景（如自動閱卷、科學(xué)研究輔助、法律條文檢索），盲目堆砌你是一個擁有20年經(jīng)驗的諾貝爾獎得主...這樣的提示詞，純屬浪費Token。

基于此，我們可以從這篇深度報告中提煉出幾條極具實操價值的建議，供開發(fā)者和企業(yè)參考：

放棄咒語，回歸指令：在處理客觀難題時，不要指望通過加一句你是專家就能讓模型智商暴漲。模型本身知道就是知道，不知道就是不知道。
迭代任務(wù)說明而非人設(shè)：與其絞盡腦汁編造一個完美的專家履歷，不如花時間打磨任務(wù)的具體指令（Task-specific instructions）。清晰地告訴模型你想要什么格式、什么樣的推理步驟（Chain of Thought），比告訴它你是誰更管用。
警惕過度扮演的陷阱：在使用Gemini等對指令遵循度極高的模型時，要小心人設(shè)帶來的副作用。如果你設(shè)定的角色太具體，模型可能會因為覺得這超出了我的人設(shè)范圍而拒絕回答它明明知道的問題。
接受不確定性：研究中提到，即使是相同的提示詞，模型在不同次運行中的表現(xiàn)也存在差異。在關(guān)鍵任務(wù)中，不要迷信單次輸出（Pass@1），多次采樣或投票機(jī)制（Consensus）可能比優(yōu)化提示詞更可靠。

大模型不是神燈里的精靈，靠一句變身咒語就能無所不能。它是一個概率機(jī)器，它的能力邊界由訓(xùn)練數(shù)據(jù)和架構(gòu)決定，而不是由我們賦予它的虛構(gòu)頭銜決定的。

參考資料：

https://arxiv.org/pdf/2503.04818

https://arxiv.org/pdf/2506.07142

https://arxiv.org/pdf/2508.00614

https://arxiv.org/pdf/2512.05858

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.