国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別復(fù)雜提示詞!螞蟻新方式讓AI自動(dòng)理解你的個(gè)性化需求

0
分享至

AntResearchNLP團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI

相信大家都有這樣一個(gè)體驗(yàn)。

跟AI無論什么對話,感覺都是說空話套話。





有時(shí)候?yàn)榱俗孉I懂自己,許多用戶甚至不得不學(xué)習(xí)復(fù)雜的“提示詞技巧”,手動(dòng)編寫長長的指令,像是在給AI做“崗前培訓(xùn)”。



那么如何實(shí)現(xiàn)高情商AI?螞蟻通用人工智能研究中心自然語言處理實(shí)驗(yàn)室提出了一個(gè)叫AlignXplore的方法——

通過強(qiáng)化學(xué)習(xí),AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動(dòng)態(tài)更新。

更有趣的是,當(dāng)把歸納好的偏好描述遷移到一個(gè)下游對齊模型時(shí),能夠讓這個(gè)模型的個(gè)性化對齊能力得到顯著提升。



如何讓AI真正懂你?

如何讓AI真正“懂”你?我們需要讓AI從一個(gè)“規(guī)則執(zhí)行者”進(jìn)化成一個(gè)“模式發(fā)現(xiàn)者”。

這意味著,它要掌握一種被認(rèn)為是人類智慧核心的能力——?dú)w納推理(Inductive Reasoning)。


△“千人一面”的對齊方式無法滿足用戶多樣的個(gè)性化需求,紅字藍(lán)

事實(shí)上,AI早已對演繹推理(Deductive Reasoning)駕輕就熟,具備令人驚嘆的數(shù)學(xué)解題和代碼編寫能力。

你給它一個(gè)確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規(guī)則(求根公式),它就能通過一步步嚴(yán)密的邏輯推演,給出一個(gè)唯一、可驗(yàn)證的正確答案。這是一個(gè)典型的“自上而下”(Top-Down)的過程:從普適的公理或規(guī)則出發(fā),推導(dǎo)出一個(gè)具體的、必然的結(jié)論。 在這個(gè)世界里,沒有模糊地帶,只有對與錯(cuò)。

而歸納推理則完全相反,它是一個(gè)自下而上(Bottom-Up)的過程:它沒有預(yù)設(shè)的“個(gè)人說明書”。它的“線索”就是你的每一個(gè)行為: 你追問了什么問題,說明你關(guān)心什么;你跳過了哪個(gè)回答,說明你不喜歡什么風(fēng)格;你對哪個(gè)笑話點(diǎn)了贊,暴露了你的幽默感。它的“任務(wù)”就是從這些海量的、碎片化的行為數(shù)據(jù)中,提煉出專屬于你的互動(dòng)模式與偏好規(guī)律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動(dòng)拼湊出一個(gè)完整的你。

舉個(gè)例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關(guān)的對話,就精準(zhǔn)捕捉到你的“潛臺(tái)詞”的:

  • 第一次交互:你問“什么是人工智能?它在商業(yè)和生活中是怎么用的?”。AI會(huì)立刻開始在幕后推理你的偏好:“你可能對AI技術(shù)有特別的興趣,但似乎更關(guān)心實(shí)際應(yīng)用,也許是商業(yè)導(dǎo)向”。
  • 第二次交互:你想學(xué)習(xí)冥想,在兩個(gè)候選回答中,你選擇了提供具體步驟的那個(gè),而不是闡述冥想哲學(xué)的回答。AI會(huì)立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務(wù)實(shí)的指導(dǎo),而不是理論探討?!?/li>

這種漸進(jìn)式的學(xué)習(xí)和優(yōu)化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會(huì)不斷收集新的線索,驗(yàn)證并修正之前的假設(shè),對你的“人物畫像”進(jìn)行一次又一次的精修。最終,它不再是被動(dòng)回答問題的機(jī)器,而是在主動(dòng)地、持續(xù)地學(xué)習(xí)和理解你是誰。

這,就是我們通向真正個(gè)性化AI的第一步。

AlignXplore

AlignXplore的訓(xùn)練包括兩個(gè)階段。



第一階段:冷啟動(dòng)訓(xùn)練(Cold-start Training)——拜師學(xué)藝

研究團(tuán)隊(duì)首先引入一個(gè)更強(qiáng)大的AI作為“導(dǎo)師模型”



。這個(gè)導(dǎo)師會(huì)生成大量高質(zhì)量的“教學(xué)案例”。對于每個(gè)用戶的行為信號集合





會(huì)生成多組候選的推理鏈r和相應(yīng)的偏好描述d利用獎(jiǎng)勵(lì)函數(shù)R(r,d)進(jìn)行篩選來獲取高質(zhì)量數(shù)據(jù)



。通過在



上進(jìn)行SFT,實(shí)現(xiàn)偏好歸納模型的冷啟動(dòng)。



其中



代表可能存在的歷史偏好,而G是為每個(gè)實(shí)例生成的候選樣本數(shù)量。這里獎(jiǎng)勵(lì)函數(shù)定義為:



其中,



是下游大語言模型R對回復(fù)的偏好打分函數(shù)。這個(gè)通用的獎(jiǎng)勵(lì)框架可以被實(shí)例化為兩種具體的獎(jiǎng)勵(lì)函數(shù),用于模型的訓(xùn)練與評估:

1、



(基于偏好判斷的獎(jiǎng)勵(lì))

R作為一個(gè)偏好判斷模型,直接評估在給定推斷出的偏好d后 “





更好”的概率,最大化與用戶真實(shí)偏好的一致性:





提供了更穩(wěn)定和有效的訓(xùn)練信號,是AlignXplore在訓(xùn)練和評估中采用的核心獎(jiǎng)勵(lì)函數(shù)。

2、



(基于生成概率的獎(jiǎng)勵(lì))

R作為一個(gè)回復(fù)生成模型,衡量在加入偏好描述d前后,模型生成較優(yōu)回復(fù)



與生成較差回復(fù)



間的對數(shù)概率差值是否有提升:



第二階段:強(qiáng)化學(xué)習(xí)(Reinforcement Learning)——實(shí)戰(zhàn)修行

在這一階段,采用GRPO算法訓(xùn)練,模型會(huì)針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結(jié)論



。隨后,系統(tǒng)會(huì)根據(jù)這些結(jié)論的準(zhǔn)確性給予“獎(jiǎng)勵(lì)”或“懲罰”。通過這種不斷的試錯(cuò)和優(yōu)化,模型學(xué)會(huì)了如何將初步的分析提煉成更精準(zhǔn)、更具指導(dǎo)性的判斷。

優(yōu)化策略定義如下:



流式偏好推斷機(jī)制

AlignXplore模型支持流式偏好推斷機(jī)制,即不再需要反復(fù)回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數(shù)據(jù)流一樣,實(shí)時(shí)、增量地更新對用戶的理解——就像它在之前的例子中發(fā)現(xiàn)用戶“務(wù)實(shí)導(dǎo)向”的風(fēng)格一樣。

這種“流式”設(shè)計(jì)帶來的好處是顯而易見的:

首先,它大大提高了生成效率;

其次,它極為靈活,當(dāng)用戶從休閑模式切換到工作狀態(tài)時(shí),它能迅速迭代出一個(gè)新的“工作版”偏好,而不是固執(zhí)地用舊眼光看用戶。這才是真正能跟上用戶節(jié)奏的動(dòng)態(tài)進(jìn)化系統(tǒng)。

實(shí)驗(yàn)結(jié)果

在域內(nèi)測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個(gè)性化對齊任務(wù)上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


△AlignXplore與各種推理/非推理模型在域內(nèi)外數(shù)據(jù)集上的表現(xiàn)

更重要的是,它展現(xiàn)了強(qiáng)大的綜合能力:

高效性: 即使互動(dòng)歷史變得非常長,流式推理機(jī)制也能保持穩(wěn)定的響應(yīng)速度和準(zhǔn)確率,不會(huì)像傳統(tǒng)方法那樣需要每次編碼所有行為信號致使越來越慢。


△隨著互動(dòng)的進(jìn)行,流式推理機(jī)制下的響應(yīng)速度和準(zhǔn)確率都保持穩(wěn)定

泛化能力:它不僅能處理特定的反饋數(shù)據(jù),還能從用戶發(fā)布的帖子user-generated content (UGC)等不同形式的內(nèi)容中學(xué)習(xí),并且其推斷出的偏好也能成功地應(yīng)用于與訓(xùn)練時(shí)不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


△泛化性實(shí)驗(yàn)

魯棒性:即使用戶的偏好發(fā)生改變甚至反轉(zhuǎn),AlignXplore也能靈活適應(yīng),不會(huì)產(chǎn)生劇烈的效果波動(dòng)。


△即便反轉(zhuǎn)初始行為信號的偏好,流式推理機(jī)制也能讓模型靈活調(diào)整

總結(jié)

該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實(shí)習(xí);螞蟻通用人工智能研究中心自然語言處理實(shí)驗(yàn)室關(guān)健、武威為共同第一作者、通訊作者。

AlignXplore是大模型個(gè)性化路上的一個(gè)全新的嘗試。在SOTA結(jié)果的背后,這項(xiàng)研究其實(shí)有很多思考:

  • 在智力上限被一波又一波推高的當(dāng)下,如何規(guī)模化訓(xùn)練大模型“情商”是一個(gè)沒有得到足夠關(guān)注卻又十分重要的問題。畢竟誰會(huì)拒絕一個(gè)既聰明又有溫度的AI呢?
  • 深度思考下的長思維鏈?zhǔn)谴竽P椭悄苣芰Φ闹饕苿?dòng)力。深度思考本身消耗巨大,那么如果只用來刷分,是不是有點(diǎn)浪費(fèi)呢?相比于結(jié)果,推理過程中產(chǎn)生的知識(shí)是不是更有價(jià)值呢?AlignXplore可以看作是推理知識(shí)在用戶理解領(lǐng)域進(jìn)行遷移應(yīng)用的一個(gè)嘗試。畢竟相對于艱深的數(shù)學(xué)知識(shí),用戶理解知識(shí)更容易被看懂,也更容易落地。
  • 如果客觀問題都很快會(huì)被AI解決,那么主觀問題該怎么辦呢?這個(gè)世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團(tuán)隊(duì)認(rèn)為個(gè)性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關(guān)研究能夠涌現(xiàn)。

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

心痛!30歲男銷售確認(rèn)死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

魔都姐姐雜談
2025-12-20 09:19:55
剎車失靈狂奔490公里 司機(jī)希望退款或換車,網(wǎng)友質(zhì)疑“自導(dǎo)自演”

剎車失靈狂奔490公里 司機(jī)希望退款或換車,網(wǎng)友質(zhì)疑“自導(dǎo)自演”

半島晨報(bào)
2025-12-20 14:45:12
杭州男子停車救人,沒想到救的竟是自己老婆!腦溢血9個(gè)月沒有后遺癥,網(wǎng)友:真的是愛的魔力……

杭州男子停車救人,沒想到救的竟是自己老婆!腦溢血9個(gè)月沒有后遺癥,網(wǎng)友:真的是愛的魔力……

環(huán)球網(wǎng)資訊
2025-12-20 17:20:34
泰柬之戰(zhàn)的效果來啦!柬埔寨電詐分子上演大逃亡,場面震撼……

泰柬之戰(zhàn)的效果來啦!柬埔寨電詐分子上演大逃亡,場面震撼……

翻開歷史和現(xiàn)實(shí)
2025-12-20 15:46:00
南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

墨蘭史書
2025-12-19 18:20:05
“邪修大法”做家務(wù)就是快!一分錢不花,家里就窗明幾凈~

“邪修大法”做家務(wù)就是快!一分錢不花,家里就窗明幾凈~

裝修秀
2025-12-19 11:30:03
圣誕節(jié)快到了,給個(gè)準(zhǔn)話,還要不要抵制洋節(jié)?

圣誕節(jié)快到了,給個(gè)準(zhǔn)話,還要不要抵制洋節(jié)?

沉思的野獸
2025-12-19 19:07:28
兩條流氓新聞,每個(gè)字都寫滿了無恥!

兩條流氓新聞,每個(gè)字都寫滿了無恥!

胖胖說他不胖
2025-12-20 11:00:14
深圳16歲“烤雞少年”回應(yīng)日營業(yè)額過萬:利潤約一到兩千,若重來想好好讀書

深圳16歲“烤雞少年”回應(yīng)日營業(yè)額過萬:利潤約一到兩千,若重來想好好讀書

紅星新聞
2025-12-20 19:39:12
在這個(gè)時(shí)代,HiFi音響為什么必須死?

在這個(gè)時(shí)代,HiFi音響為什么必須死?

電科技網(wǎng)
2025-12-19 09:00:07
要解開南京博物院捐贈(zèng)之謎,建議先查清這神秘的兩個(gè)人

要解開南京博物院捐贈(zèng)之謎,建議先查清這神秘的兩個(gè)人

李老逵亂擺龍門陣
2025-12-20 10:54:00
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
施瓦辛格深夜警告:晚上健身,就是自殘!

施瓦辛格深夜警告:晚上健身,就是自殘!

徐德文科學(xué)頻道
2025-12-19 23:27:25
大風(fēng)追蹤 | 27歲海歸女子家中遇害第555天后一審宣判,兇手犯故意殺人罪判死緩,遇害女子母親:將申請抗訴

大風(fēng)追蹤 | 27歲海歸女子家中遇害第555天后一審宣判,兇手犯故意殺人罪判死緩,遇害女子母親:將申請抗訴

大風(fēng)新聞
2025-12-20 15:53:02
朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

楓塵余往逝
2025-12-20 20:24:53
韓紅為小洛熙發(fā)聲:錯(cuò)得太離譜!尸檢報(bào)告曝光,5月嬰兒本可痊愈

韓紅為小洛熙發(fā)聲:錯(cuò)得太離譜!尸檢報(bào)告曝光,5月嬰兒本可痊愈

千言娛樂記
2025-12-20 19:17:42
“最低選擇299元有女孩陪侍套餐”,記者說只想看電影,“私人影院”服務(wù)員直接讓記者去別家看

“最低選擇299元有女孩陪侍套餐”,記者說只想看電影,“私人影院”服務(wù)員直接讓記者去別家看

環(huán)球網(wǎng)資訊
2025-12-20 12:20:07
克林頓罕見強(qiáng)硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭,而是美國的戰(zhàn)爭!

克林頓罕見強(qiáng)硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭,而是美國的戰(zhàn)爭!

老馬拉車莫少裝
2025-12-20 14:50:21
科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

觀察宇宙
2025-12-19 21:59:03
1-1大冷!中國隊(duì)逼平韓國隊(duì),末輪贏球=擺脫倒數(shù)第一

1-1大冷!中國隊(duì)逼平韓國隊(duì),末輪贏球=擺脫倒數(shù)第一

何老師呀
2025-12-20 16:36:13
2025-12-20 23:19:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

美方最新表態(tài):不會(huì)強(qiáng)迫烏克蘭接受協(xié)議

頭條要聞

美方最新表態(tài):不會(huì)強(qiáng)迫烏克蘭接受協(xié)議

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
本地
公開課
軍事航空

藝術(shù)要聞

驚!肢體語言竟如此迷人,讓人無法抗拒!

手機(jī)要聞

華為Pura X官方降價(jià)800元 闊折疊新年大禮

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版