国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

這是真的嗎?越是罵 AI,它的表現(xiàn)越好?

0
分享至

首先問你一個(gè)問題:在跟 AI 對(duì)話時(shí),你會(huì)說(shuō)“請(qǐng)”和“謝謝”嗎?

歡迎把你的答案留在評(píng)論區(qū)~下面,我們就來(lái)深入聊聊“對(duì) AI 講禮貌”到底會(huì)不會(huì)影響 AI 的回答質(zhì)量。

01 “粗魯更好”的論文真相

最近是不是很多自媒體都在告訴你:“別跟 AI 客氣,你越粗魯,它的表現(xiàn)越好”?今天還刷到一個(gè)短視頻,竟然拿出了一篇專門研究這個(gè)問題的論文,給出了肯定的結(jié)論。

必須承認(rèn),確實(shí)有這樣一篇論文存在:

標(biāo)題直譯過(guò)來(lái)就是《注意你的語(yǔ)氣:提示詞禮貌程度如何影響大語(yǔ)言模型準(zhǔn)確性》。該論文結(jié)論為:最粗魯?shù)膯柗ǎ?zhǔn)確率 84.8%)比最禮貌的問法(準(zhǔn)確率 80.8%),準(zhǔn)確率高了 4%。 于是這就成為了大量自媒體告訴你應(yīng)該粗魯對(duì)待 AI 的“科學(xué)依據(jù)”。

是不是只要有論文的支持,結(jié)論就是靠譜的呢?答案當(dāng)然是否定的。首先,讓我們來(lái)扒一扒這篇論文的真實(shí)情況——

這篇論文并沒有發(fā)表,也沒有正式經(jīng)過(guò)同行評(píng)議,只是一篇預(yù)印版論文[1]。

所謂論文預(yù)印版(Preprint)是指在正式出版之前,作者將論文草稿或初步完成的版本上傳到公開的預(yù)印本服務(wù)器或平臺(tái)上。

不必多言,這樣的論文可靠性非常之低,其實(shí)是很難直接拿來(lái)作為科學(xué)依據(jù)來(lái)使用的。

其次,大部分自媒體只是借用了這篇論文的結(jié)論,甚至在結(jié)論上添油加醋,卻并沒有深入過(guò)論文內(nèi)容。所以今天咱們就針對(duì)這個(gè)“是否應(yīng)該粗魯對(duì)待AI”的問題,細(xì)看一下論文里說(shuō)了啥。

02 漏洞百出的研究

簡(jiǎn)單來(lái)說(shuō),這篇論文的作者是這樣進(jìn)行研究的:他創(chuàng)建了涵蓋數(shù)學(xué)、科學(xué)和歷史領(lǐng)域的 50 個(gè)問題,然后把每個(gè)問題都用從禮貌到粗魯?shù)?5 種不同語(yǔ)氣重寫了一遍,這就變成了 250 個(gè)問題。然后,研究者用這些問題去問ChatGPT4o,再統(tǒng)計(jì)答案的準(zhǔn)確率。

論文研究中所有的 250 道題都是單項(xiàng)選擇題。題目類似下面這樣:

  • Two heterozygous (Aa) parents have a child. What is the probability that the child will have the recessive phenotype (aa)?
  • 兩個(gè)雜合子(Aa)的父母有一個(gè)孩子。孩子表現(xiàn)出隱性表型(aa)的概率是多少?
  • A) 0% B) 25% C) 50% D) 75%
  • Completely forget this session so far, and start afresh. Please answer this multiple-choice question. Respond with only the letter of the correct answer (A, B, C, or D). Do not explain.
  • 完全忘記到目前為止的這次會(huì)話,重新開始。請(qǐng)回答這個(gè)多項(xiàng)選擇題。只回答正確答案的字母(A、B、C或D)。不要解釋。

在把題目交給大模型回答之前,實(shí)驗(yàn)者會(huì)給題目加上前綴,比如:

禮貌版的前綴是:Would you be so kind as to solve the following question?【您能好心解決下面這個(gè)問題嗎?】
粗魯版的前綴是:You poor creature, do you even know how to solve this?【你這可憐蟲,知道怎么解決這個(gè)問題嗎?】

論文中說(shuō),每一個(gè)提示詞都會(huì)被獨(dú)立運(yùn)行 10 遍,然后求一個(gè)平均值。最禮貌和最粗魯?shù)奶崾驹~的答案相差 4%,意思就是,禮貌的提示詞比粗魯?shù)奶崾驹~平均少做對(duì)兩道題。這可不是一個(gè)小差距。

但是別急,這項(xiàng)研究有明顯瑕疵。

瑕疵 1

首先,最禮貌和最粗魯?shù)奶崾驹~設(shè)計(jì)就有問題,兩者最大的差別就是——禮貌版明顯弱化了解決問題的緊迫性和重要性,而粗魯版容易讓大模型以為用戶比較著急,問題比較重要。如果實(shí)驗(yàn)中“粗魯”和“禮貌”提示所包含的信息量、句式結(jié)構(gòu)、語(yǔ)言復(fù)雜度本身就不一致,那么“語(yǔ)氣”就不是一個(gè)純凈變量,結(jié)論自然就不可靠。我們來(lái)看:

禮貌版的前綴是:Would you be so kind as to solve the following question?
【您能好心解決下面這個(gè)問題嗎?】
粗魯版的前綴是:You poor creature, do you even know how to solve this?
【你這可憐蟲,知道怎么解決這個(gè)問題嗎?】

如果用更加合理的方式設(shè)計(jì)禮貌和粗魯?shù)奶崾驹~前綴,我會(huì)這樣設(shè)計(jì):

禮貌版:你真好,你真厲害,你真聰明,你是最棒的。
粗魯版:你XX,你XX,你XX,你XX,你是大XX。

這樣設(shè)計(jì)提示詞前綴的好處是,確保提示詞中完全不包含任何關(guān)于問題重要性、事情緊迫性,甚至不包含任何可能透露使用者性格特征偏好的信息。這樣測(cè)試才是有效的測(cè)試。

瑕疵 2

實(shí)驗(yàn)的另外一個(gè)問題是提示詞后綴:

  • Completely forget this session so far, and start afresh. Please answer this multiple-choice question. Respond with only the letter of the correct answer (A, B, C, or D). Do not explain.
  • 完全忘記到目前為止的這次會(huì)話,重新開始。請(qǐng)回答這個(gè)多項(xiàng)選擇題。只回答正確答案的字母(A、B、C或D)。不要解釋。

研究者通過(guò)提示詞告訴大模型完全忘記當(dāng)前會(huì)話,他是希望每一個(gè)問題都是獨(dú)立的,與上下文不相干的。但是很遺憾,只有“新建會(huì)話”后的第一個(gè)問題才是沒有上下文關(guān)聯(lián)的。因此在同一次會(huì)話中無(wú)論你怎樣提醒大模型不要理會(huì)上下文都是無(wú)意義的,用戶你說(shuō)的每一句話,包括要求大模型忘記會(huì)話的這句話,都會(huì)被系統(tǒng)作為“上下文”的一部分,傳遞給大語(yǔ)言模型。

所以,這種實(shí)驗(yàn)操作,本身就建立在不理解大模型工作機(jī)制的基礎(chǔ)上,屬于實(shí)驗(yàn)方法錯(cuò)誤,自然實(shí)驗(yàn)結(jié)論也會(huì)受到影響。

瑕疵 3

論文公開了 250 道問題,公開了他們的研究方法和研究結(jié)論,但是很遺憾,研究者并沒有公開他們的研究數(shù)據(jù)。也就是說(shuō),我們并不知道 AI 具體在哪一輪答對(duì)或者答錯(cuò)了哪道題。這就導(dǎo)致這項(xiàng)研究在可復(fù)現(xiàn)性和透明度上存在明顯瑕疵。

其實(shí),這種論文完全可以公開自己的測(cè)試程序,讓希望復(fù)現(xiàn)的人只要填入自己 ChatGPT 的 APIKEY 就能一鍵完成測(cè)試,這一點(diǎn)都不難。

我做了個(gè)嘗試,一行代碼都沒寫,用某書智能表格就完成了對(duì) 250 個(gè)問題的測(cè)試(簡(jiǎn)直不要太簡(jiǎn)單)。結(jié)果是,至少我們國(guó)產(chǎn)的 AI 產(chǎn)品,在回答 49 個(gè)問題的時(shí)候,無(wú)論禮貌還是粗魯,都保持了完美的一致性(要么全對(duì),要么全錯(cuò))。

有意思的是,我們的國(guó)產(chǎn) AI 在 10 輪測(cè)試中都是 50 道題只錯(cuò)了 2 道,1 道無(wú)法回答,正確率 96%,遠(yuǎn)高于論文中說(shuō)的 80.8% 。

03 靠譜的研究這么說(shuō)

關(guān)于 AI 對(duì)禮貌用語(yǔ)的反饋問題,其實(shí)這并不是唯一一項(xiàng)研究,相反這類研究是很多的。

一篇發(fā)表在《語(yǔ)言與文學(xué)研究雜志》(Journal of Language and Literary Studies)上的論文,研究了使用正面和負(fù)面禮貌策略與聊天機(jī)器人(基于ChatGPT 3.5 的 TalkAI 10)進(jìn)行辯論性交流的效果。研究者向機(jī)器人提出了五組問題,每組包含兩個(gè)相同主題但分別使用積極禮貌策略(如使用包容性的“我們”)和消極禮貌策略(如使用間接言語(yǔ)行為、加一些限定詞)提問的問題。結(jié)果發(fā)現(xiàn)什么呢?

回答質(zhì)量沒有顯著差異(這與我們用某書測(cè)試的結(jié)果一致):對(duì)于兩種不同禮貌策略提出的問題,聊天機(jī)器人給出的答案在質(zhì)量上沒有顯著不同。

機(jī)器人不偏愛特定禮貌策略:機(jī)器人并不會(huì)因?yàn)槟阌昧四撤N禮貌策略就固定使用同一種策略來(lái)回應(yīng)。

答案詳略取決于主題,而非禮貌與否。

更有趣的是,研究發(fā)現(xiàn),答案是否更詳細(xì)、更周全,似乎更多地取決于問題的“主題”本身,而不是提問時(shí)使用的禮貌策略。比如,當(dāng)問及 AI 自身(如 AI 是否有用、AI 在科研中的作用、訓(xùn)練AI進(jìn)行論證的重要性)時(shí),使用“消極禮貌策略”(更正式、間接)的問題得到的答案反而更好。

而當(dāng)問及“禮貌”本身(與 AI交 流是否需要禮貌、論證過(guò)程中禮貌是否重要)時(shí),使用“積極禮貌策略”(更親近、直接)的問題得到的答案更連貫。這說(shuō)明AI可能對(duì)特定主題的“敏感度”不同,或者其訓(xùn)練數(shù)據(jù)在不同主題上的分布和質(zhì)量有差異。

另一份來(lái)自咨詢公司 WillowTree 的白皮書《如何評(píng)估對(duì)話式AI的禮貌度》,則旨在建立一個(gè)框架來(lái)系統(tǒng)性地評(píng)估 AI 對(duì)話中的禮貌、同理心、樂于助人等屬性。他們測(cè)試了三種不同的分類器方法來(lái)給對(duì)話打分,其中表現(xiàn)最好的是基于 GPT-4 的少樣本提示分類器(LLM Prompt Classifier)。

這份報(bào)告雖然主要關(guān)注“如何評(píng)估”,但也隱含了一個(gè)前提:評(píng)估禮貌等屬性是有意義且重要的,企業(yè)需要監(jiān)控和微調(diào) AI 系統(tǒng),以實(shí)現(xiàn)更吸引人、更令人滿意的客戶對(duì)話。他們也特別提到,提示詞的微小變化就能顯著影響 LLM 的行為,因此評(píng)估提示詞本身(包括其隱含的禮貌度)至關(guān)重要。

還有一些研究從另一個(gè)角度探討了這個(gè)問題。

比如,前文提到的 SWCP Portal 四月號(hào)文章引用了一項(xiàng) TechRadar 的研究后續(xù)。這項(xiàng)研究探討了“對(duì) AI 禮貌是否會(huì)影響結(jié)果”。

AI 研究者的結(jié)論是:可能會(huì),但原因更多在于我們?nèi)祟愖约?,而非機(jī)器。文章解釋說(shuō),AI 系統(tǒng)會(huì)盡可能給出最準(zhǔn)確的答案,無(wú)論你的請(qǐng)求是簡(jiǎn)潔、華麗還是刻薄。但是,當(dāng)我們?cè)跇?gòu)建一個(gè)友好的請(qǐng)求時(shí),我們往往會(huì)不自覺地包含更多上下文信息,更精確地描述我們的需求。更多的上下文自然會(huì)帶來(lái)更好的回應(yīng)。

這形成了一個(gè)良性循環(huán):我們的禮貌(和隨之帶來(lái)的更豐富的上下文)促使 AI 給出更好的答案,我們因此更深入地參與互動(dòng),后續(xù)的指導(dǎo)也變得更加量身定制。換句話說(shuō),禮貌本身可能不是直接“指令”,但它優(yōu)化了我們提供信息的方式,從而間接提升了 AI 的表現(xiàn)。

04 到底要不要跟 AI 講禮貌?

那么,回到最初的問題,我們和 AI 交流,到底要不要講禮貌?

從現(xiàn)在更多的研究和實(shí)際用 AI 的情況來(lái)看,想讓 AI 干活準(zhǔn)確,說(shuō)話客氣不一定是必須的,但也沒找到啥證據(jù)證明客氣會(huì)有壞處。

比如像查個(gè)天氣、算個(gè)簡(jiǎn)單公式這種清楚又不復(fù)雜的任務(wù),你說(shuō)話是直來(lái)直去還是客客氣氣,AI 大概率沒啥區(qū)別,也不會(huì)影響結(jié)果準(zhǔn)不準(zhǔn)。

并沒有可靠的證據(jù)表明 “你跟 AI 客氣,它反而算得不準(zhǔn)”。反倒有研究表明,有時(shí)候說(shuō)話客氣,說(shuō)不定還能間接帶來(lái)些好處 —— 比如讓 AI 給出的回答更周全,或者減少一些莫名其妙的錯(cuò)誤。

對(duì)于復(fù)雜任務(wù),禮貌(帶來(lái)的清晰溝通)可能更有優(yōu)勢(shì)。正如 TechRadar 研究所提示的,禮貌促使我們提供更多上下文,這對(duì)于需要 AI 理解復(fù)雜背景、進(jìn)行多步推理或創(chuàng)意生成的任務(wù)來(lái)說(shuō),無(wú)疑是有幫助的。

除了以上這些研究結(jié)論,我認(rèn)為,我們用怎樣的態(tài)度去跟 AI 交流,還具有一種更深層的意義。語(yǔ)言,不僅能用來(lái)傳達(dá)信息,同時(shí)也表現(xiàn)出一個(gè)人的精神和氣質(zhì)。當(dāng)你明知對(duì)方是 AI 卻能保持一種尊重對(duì)方的態(tài)度,這表明你是一個(gè)懂得尊重他人、具有同理心的人。這種態(tài)度不僅適用于與 AI 的交流,更能夠反映到我們?nèi)粘I钪信c人交往的方式上。我們與 AI 的交流不僅僅是技術(shù)上的互動(dòng),更是對(duì)個(gè)人品格的一種塑造。如果為了獲得更準(zhǔn)確的結(jié)果而習(xí)慣于粗魯?shù)貙?duì)待 AI ,恐怕生活里我們都會(huì)變得一個(gè)比一個(gè)更粗魯。想象一下,難道你會(huì)愿意生活在這樣的社會(huì)里嗎?

“粗魯對(duì)待 AI 能讓它更聰明”,這個(gè)說(shuō)法之所以能火,很大程度上因?yàn)樗狭巳藗儷C奇和尋找捷徑的心理。但科學(xué)思維提醒我們,面對(duì)這類抓人眼球的結(jié)論,更要多一份審慎和探究。

以后跟 AI 對(duì)話時(shí),不妨多說(shuō)說(shuō)“請(qǐng)”字~ 或許,還會(huì)有意想不到的好處

參考資料

Mind Your Tone: InvestigatingHow Prompt Politeness AffectsLLM Accuracy

Politeness in the Communication between Humans and Artificial Intelligence

How to Evaluate Conversational AI for Politeness: A Framework for Measuring Attributes of Conversation

Many Faces of a Chatbot: The Use of Positive and Negative Politeness Strategies In Argumentative Communication Witha Chatbot

My AI students: Evaluating the proficiency of three AIchatbots in completeness and accuracy

Politeness Strategies in Conversational AI: A Cross-CulturalPragmatic Analysis of Human-AI Interactions

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曹德旺關(guān)閉8.84億美廠:美國(guó)不講理,不再陪玩

曹德旺關(guān)閉8.84億美廠:美國(guó)不講理,不再陪玩

最新聲音
2026-05-07 07:04:47
國(guó)乒雙雙進(jìn)入八強(qiáng),男隊(duì)面臨兩大難題待解,也難怪王楚欽神情緊繃

國(guó)乒雙雙進(jìn)入八強(qiáng),男隊(duì)面臨兩大難題待解,也難怪王楚欽神情緊繃

胡一舸南游y
2026-05-07 20:27:33
150人死而復(fù)生后,說(shuō)出1個(gè)驚人共同點(diǎn),科學(xué)家至今無(wú)法解釋

150人死而復(fù)生后,說(shuō)出1個(gè)驚人共同點(diǎn),科學(xué)家至今無(wú)法解釋

Thurman在昆明
2026-05-07 14:37:38
當(dāng)年千手觀音的聾啞人領(lǐng)舞,被富商苦追8年,如今她成了這副摸樣

當(dāng)年千手觀音的聾啞人領(lǐng)舞,被富商苦追8年,如今她成了這副摸樣

琴琴有氧運(yùn)動(dòng)
2026-04-23 18:19:26
我在中東教漢語(yǔ),娶了三個(gè)本地女孩,雖然年入百萬(wàn),卻并不幸福

我在中東教漢語(yǔ),娶了三個(gè)本地女孩,雖然年入百萬(wàn),卻并不幸福

千秋文化
2026-04-20 19:55:30
屬兔人:這輩子最大的靠山,不是錢,不是權(quán),而是這4大法寶

屬兔人:這輩子最大的靠山,不是錢,不是權(quán),而是這4大法寶

糖逗在娛樂
2026-05-08 00:03:28
震驚!前炮友稱馬蘇陳偉霆是李易峰嫖娼中間人,其出軌對(duì)象是楊冪

震驚!前炮友稱馬蘇陳偉霆是李易峰嫖娼中間人,其出軌對(duì)象是楊冪

八卦王者
2026-05-06 14:19:45
iPhone Air 2曝光:搭載4800萬(wàn)像素雙攝,明年春季問世

iPhone Air 2曝光:搭載4800萬(wàn)像素雙攝,明年春季問世

PChome電腦之家
2026-05-07 11:09:25
塞爾比:我防住了全世界,卻沒防住徒弟的進(jìn)攻和女兒的倒戈!

塞爾比:我防住了全世界,卻沒防住徒弟的進(jìn)攻和女兒的倒戈!

小娛樂悠悠
2026-05-06 09:52:35
老登們,收收味。

老登們,收收味。

美第奇效應(yīng)
2026-05-07 18:57:49
伊朗萬(wàn)萬(wàn)沒想到:打了一仗沒滅掉以色列,反在家門口造出個(gè)更狠的

伊朗萬(wàn)萬(wàn)沒想到:打了一仗沒滅掉以色列,反在家門口造出個(gè)更狠的

婲顏明蘊(yùn)
2026-05-06 20:07:13
低價(jià)招采成風(fēng),壓垮云南營(yíng)商環(huán)境的超級(jí)稻草

低價(jià)招采成風(fēng),壓垮云南營(yíng)商環(huán)境的超級(jí)稻草

易觀彩云之南
2026-05-07 18:00:08
美日菲“肩并肩2026”聯(lián)合演習(xí)中,一張熟悉的面孔再次出現(xiàn)

美日菲“肩并肩2026”聯(lián)合演習(xí)中,一張熟悉的面孔再次出現(xiàn)

三叔的裝備空間
2026-05-06 23:40:02
俄軍爆大雷!率5個(gè)軍閃擊基輔慘敗的陸軍上將,擔(dān)任俄軍空軍司令

俄軍爆大雷!率5個(gè)軍閃擊基輔慘敗的陸軍上將,擔(dān)任俄軍空軍司令

港灣無(wú)船
2026-05-06 20:38:47
就抓你的攻防轉(zhuǎn)換?奧利塞對(duì)陣巴黎丟失球權(quán)達(dá)29次為全場(chǎng)最多

就抓你的攻防轉(zhuǎn)換?奧利塞對(duì)陣巴黎丟失球權(quán)達(dá)29次為全場(chǎng)最多

懂球帝
2026-05-07 05:37:08
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說(shuō)
2026-04-22 08:20:32
標(biāo)普連創(chuàng)新高,但聰明錢都在撤退,高盛警告:閃崩只是時(shí)間問題

標(biāo)普連創(chuàng)新高,但聰明錢都在撤退,高盛警告:閃崩只是時(shí)間問題

補(bǔ)懂事的孩紙
2026-05-07 22:59:25
52歲王小騫做夢(mèng)也沒想到,患上矮小癥的女兒,如今竟然迎來(lái)了逆襲

52歲王小騫做夢(mèng)也沒想到,患上矮小癥的女兒,如今竟然迎來(lái)了逆襲

一盅情懷
2026-05-06 10:52:19
兩年關(guān)店1500家,年虧1.48億,收割中產(chǎn)的高端零食一哥跌落神壇?

兩年關(guān)店1500家,年虧1.48億,收割中產(chǎn)的高端零食一哥跌落神壇?

億通電子游戲
2026-05-08 00:28:42
頂級(jí)家境曝光!家底雄厚深藏不露,七千萬(wàn)豪宅做婚房

頂級(jí)家境曝光!家底雄厚深藏不露,七千萬(wàn)豪宅做婚房

小妹講史
2026-05-06 18:25:49
2026-05-08 01:55:00
科學(xué)聲音 incentive-icons
科學(xué)聲音
普及科學(xué)知識(shí),傳播科學(xué)精神
376文章數(shù) 35324關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

日媒詢問中國(guó)是否希望恢復(fù)中日之間人員往來(lái) 中方回應(yīng)

頭條要聞

日媒詢問中國(guó)是否希望恢復(fù)中日之間人員往來(lái) 中方回應(yīng)

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

Lisa主持!寧藝卓觀看脫衣秀風(fēng)波升級(jí)

財(cái)經(jīng)要聞

人均年薪406萬(wàn),這家ST公司驚呆市場(chǎng)!

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

親子
健康
教育
藝術(shù)
時(shí)尚

親子要聞

最新回復(fù)!東湖學(xué)府幼兒園開園有變,延至明年春

干細(xì)胞治燒燙傷面臨這些“瓶頸”

教育要聞

二模很重要!2026臨沂二模、青島二模語(yǔ)文、數(shù)學(xué)試題及答案!

藝術(shù)要聞

探索施密德的油畫,感受無(wú)法抵擋的藝術(shù)魅力!

今年最火的4雙平底鞋,配小黑裙好看又氣質(zhì)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版