国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

這一個Tab鍵,我愿意單獨(dú)付費(fèi):Cursor在線強(qiáng)化學(xué)習(xí)優(yōu)化代碼建議

0
分享至

機(jī)器之心報(bào)道

編輯:+0

Cursor Tab 是 Cursor 的核心功能之一,它通過分析開發(fā)者的編碼行為,智能預(yù)測并推薦后續(xù)代碼,開發(fā)者僅需按下 Tab 鍵即可采納。



然而,它也面臨著一個 AI 普遍存在的難題:「過度熱情」。有時,它提出的建議不僅毫無用處,甚至?xí)驍嚅_發(fā)者的思路。

問題的關(guān)鍵,不只是讓 AI 寫出更優(yōu)秀的代碼,更是要教會它「察言觀色」:在最恰當(dāng)?shù)臅r機(jī)提供幫助,在其他時候則保持安靜。

基于此,Cursor 采用在線強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練出一個全新的 Tab 模型。該模型將每一次用戶交互(接受/拒絕建議)都視為一個強(qiáng)化信號,直接用于模型的在線優(yōu)化。在每天超過 4 億次請求的巨大流量驅(qū)動下,模型得以進(jìn)行高頻度的、基于真實(shí)世界反饋的持續(xù)學(xué)習(xí)。



Cursor 已將這個新的 Tab 模型設(shè)為默認(rèn)版本。與舊模型相比,新模型提供的建議數(shù)量減少了 21%,但所提供建議的接受率卻提升了 28%。此舉旨在提升用戶的編碼體驗(yàn),Cursor 也計(jì)劃在未來繼續(xù)深化這些方法的研究。

Cursor 的策略獨(dú)特且高效:它每天多次向用戶部署新模型(每隔 1.5-2 小時),利用實(shí)時數(shù)據(jù)進(jìn)行快速訓(xùn)練和優(yōu)化。

這與主流做法形成了鮮明對比。多數(shù)廠商仍在靜態(tài)數(shù)據(jù)集上進(jìn)行長周期訓(xùn)練,依賴人工標(biāo)注,數(shù)月才發(fā)布一次新模型。Cursor 的模式則建立了一個超高頻的實(shí)時反饋循環(huán),是對傳統(tǒng)模型開發(fā)流程的徹底顛覆。

這似乎又一次向我們證明了,誰掌握了數(shù)據(jù)入口,誰就掌握了 AI 進(jìn)化的主動權(quán)。

該功能在 AI 社區(qū)也得到了非常積極的反饋,有用戶表示這是 Cursor 當(dāng)前「護(hù)城河」,并愿意為 Cursor Tab 單獨(dú)付費(fèi)。



還有開發(fā)者認(rèn)為,它能大幅提升了生產(chǎn)力,不像 agent 那樣只有噱頭,而是「比其他任何功能都更能改善工作流程」。



另外,一條被「強(qiáng)化學(xué)習(xí)之父」Richard Sutton 轉(zhuǎn)發(fā)的評論表示,Cursor 的這個做法意義重大,它首次大規(guī)模證明了「實(shí)時在線學(xué)習(xí)」的巨大威力,并且指明了 AI 未來的一個重要發(fā)展方向,盡管目前還不夠完美。



Cursor 通過一篇博客介紹了他們?nèi)绾卫眠@些數(shù)據(jù),通過在線強(qiáng)化學(xué)習(xí)技術(shù)來優(yōu)化其 Tab 模型。

  • 博客地址:https://cursor.com/cn/blog/tab-rl

「干擾性建議」的挑戰(zhàn)

要實(shí)現(xiàn)高接受率,不僅需要提升模型本身的智能水平,更關(guān)鍵的是要判斷何時應(yīng)提供建議,何時應(yīng)保持靜默。在某些場景下,上下文信息不足以準(zhǔn)確判斷用戶的意圖。即便模型具備完美的知識和推理能力,也無法預(yù)知用戶的確切操作。在這些情況下,不提供任何建議是更優(yōu)的選擇。

為提升建議的接受率,一種直接的思路是訓(xùn)練一個獨(dú)立的分類模型來預(yù)測建議是否會被采納。據(jù) Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此種策略。它通過一個邏輯回歸模型計(jì)算「上下文過濾分?jǐn)?shù)」,該模型接收 11 個特征作為輸入,涵蓋了編程語言、前次建議的采納情況、光標(biāo)前的字符序列等。盡管該模型的確切預(yù)測目標(biāo)未知,但外界普遍猜測其旨在預(yù)測建議被用戶接受的概率。當(dāng)該分?jǐn)?shù)低于 15% 時,系統(tǒng)便會跳過此次建議。

該方案雖然可行,但 Cursor 的團(tuán)隊(duì)希望尋求一種更通用的機(jī)制,以便能復(fù)用 Tab 模型自身學(xué)到的強(qiáng)大代碼表征能力。他們希望從根源上讓 Tab 模型避免生成質(zhì)量不高的建議,而非僅僅在事后進(jìn)行過濾。因此,他們最終選擇了策略梯度方法。

策略梯度方法

策略梯度是一種通用的優(yōu)化框架,其目標(biāo)是調(diào)整「策略」(在此即 Tab 模型),以最大化「獎勵」(Reward)。獎勵是一個被賦予策略所執(zhí)行的每一個動作的數(shù)值。通過策略梯度算法,可以持續(xù)更新策略,使其在未來能夠獲得更高的平均獎勵。

該類算法的核心思想是:允許策略進(jìn)行探索性的隨機(jī)嘗試,觀察不同行為所帶來的獎勵高低,然后對獲得高獎勵的行為進(jìn)行正向強(qiáng)化,對導(dǎo)致低獎勵的行為進(jìn)行負(fù)向強(qiáng)化。

為了運(yùn)用策略梯度方法優(yōu)化 Tab,團(tuán)隊(duì)定義了一個精巧的獎勵函數(shù):鼓勵被采納的建議,同時懲罰那些被展示但未被采納的建議。

例如,假設(shè)目標(biāo)是當(dāng)建議的接受率不低于 25% 時才進(jìn)行展示。那么,可以為被采納的建議設(shè)定 0.75 的獎勵,為被拒絕的建議設(shè)定 -0.25 的獎勵,而未展示建議的情況獎勵為 0。如果一個建議的真實(shí)接受概率為 p,那么展示該建議的期望獎勵就是。該值僅在 p>0.25 時為正。因此,一個旨在最大化獎勵的策略,將學(xué)會在其預(yù)估接受率超過 25% 時才給出建議。



在實(shí)際應(yīng)用中,Cursor 使用的獎勵函數(shù)更為復(fù)雜,還考慮了建議的長度、代碼跳轉(zhuǎn)以及展示更多建議的可能性等因素。但其核心理念是一致的:并非直接對接受率進(jìn)行建模,而是學(xué)習(xí)一個能夠達(dá)成特定接受率目標(biāo)的策略。

可以推斷,模型在其內(nèi)部表征中自發(fā)學(xué)習(xí)到了對接受概率的評估(或至少是評估其是否超過 25%),而這個過程完全交由優(yōu)化器自行探索。

同策略(On-Policy)數(shù)據(jù)的重要性



然而,該方法有一個關(guān)鍵前提:用于計(jì)算梯度的動作樣本,必須來自于當(dāng)前正在優(yōu)化的策略。一旦策略被更新,舊的數(shù)據(jù)便不再是「同策略(On-Policy)」數(shù)據(jù)。

為了獲取最新的有效樣本,就必須將新模型部署給用戶并收集其行為數(shù)據(jù)。這意味著需要一套高效的基礎(chǔ)設(shè)施,以快速部署新的模型檢查點(diǎn),并縮短從用戶產(chǎn)生數(shù)據(jù)到數(shù)據(jù)進(jìn)入下一輪訓(xùn)練流程的時間。

目前,Cursor 推出一個檢查點(diǎn)并收集所需數(shù)據(jù)需要 1.5 到 2 小時。盡管這在人工智能行業(yè)已屬高效,但仍有進(jìn)一步優(yōu)化的空間。

Cursor 這次更新讓你心動了嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
內(nèi)地上映第二天,電影《阿凡達(dá)3》票房破2億,觀眾:電影時長太長,看完體驗(yàn)很不好

內(nèi)地上映第二天,電影《阿凡達(dá)3》票房破2億,觀眾:電影時長太長,看完體驗(yàn)很不好

臺州交通廣播
2025-12-20 13:51:54
寧波5月大女嬰手術(shù)后去世,家屬:尸檢報(bào)告稱未檢見冠狀竇型房間隔缺損

寧波5月大女嬰手術(shù)后去世,家屬:尸檢報(bào)告稱未檢見冠狀竇型房間隔缺損

紅星新聞
2025-12-20 15:16:15
“最低選擇299元有女孩陪侍套餐”,記者說只想看電影,“私人影院”服務(wù)員直接讓記者去別家看

“最低選擇299元有女孩陪侍套餐”,記者說只想看電影,“私人影院”服務(wù)員直接讓記者去別家看

環(huán)球網(wǎng)資訊
2025-12-20 12:20:07
1-1大冷!中國隊(duì)逼平韓國隊(duì),末輪贏球=擺脫倒數(shù)第一

1-1大冷!中國隊(duì)逼平韓國隊(duì),末輪贏球=擺脫倒數(shù)第一

何老師呀
2025-12-20 16:36:13
歐盟通過對烏1050億貸款,普京:俄羅斯從未攻擊過烏克蘭 | 狼叔看世界

歐盟通過對烏1050億貸款,普京:俄羅斯從未攻擊過烏克蘭 | 狼叔看世界

狼叔看世界
2025-12-20 07:53:23
哈薩克斯坦真要站隊(duì)日本?剛簽37億大單,托卡耶夫一個舉動引眾怒

哈薩克斯坦真要站隊(duì)日本?剛簽37億大單,托卡耶夫一個舉動引眾怒

云上烏托邦
2025-12-20 17:15:18
普京戀愛了!網(wǎng)傳普京女友是她——被譽(yù)為“俄羅斯最柔軟的女人”

普京戀愛了!網(wǎng)傳普京女友是她——被譽(yù)為“俄羅斯最柔軟的女人”

觸摸史跡
2025-12-20 20:05:30
圣誕節(jié)快到了,給個準(zhǔn)話,還要不要抵制洋節(jié)?

圣誕節(jié)快到了,給個準(zhǔn)話,還要不要抵制洋節(jié)?

沉思的野獸
2025-12-19 19:07:28
北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
哈蘭德閃擊!兩連擊破門,7戰(zhàn)西漢姆轟10球,跳機(jī)械舞慶祝

哈蘭德閃擊!兩連擊破門,7戰(zhàn)西漢姆轟10球,跳機(jī)械舞慶祝

奧拜爾
2025-12-20 23:12:58
73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

新民周刊
2025-12-20 17:10:52
盒馬在上海成立盒馬數(shù)科技術(shù)公司

盒馬在上海成立盒馬數(shù)科技術(shù)公司

每日經(jīng)濟(jì)新聞
2025-12-19 10:46:09
電信董事長估計(jì)要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

電信董事長估計(jì)要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

荊楚寰宇文樞
2025-12-19 23:04:03
遼寧男籃2分險(xiǎn)勝寧波!楊鳴拒絕爆冷,威爾斯26分,付豪16分

遼寧男籃2分險(xiǎn)勝寧波!楊鳴拒絕爆冷,威爾斯26分,付豪16分

體壇瞎白話
2025-12-20 21:44:38
南京博物院院長從靈谷塔七層一躍而下!

南京博物院院長從靈谷塔七層一躍而下!

興化論談
2025-12-19 20:21:07
停播7年,那個挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

停播7年,那個挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
中央戲劇學(xué)院院長郝戎被查,劉燁、章子怡、靳東等為其學(xué)生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導(dǎo)師"

中央戲劇學(xué)院院長郝戎被查,劉燁、章子怡、靳東等為其學(xué)生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導(dǎo)師"

大風(fēng)新聞
2025-12-19 11:54:20
彈劾賴清德網(wǎng)絡(luò)連署破600萬,郭正亮:臺北反賴就超過6成

彈劾賴清德網(wǎng)絡(luò)連署破600萬,郭正亮:臺北反賴就超過6成

海峽導(dǎo)報(bào)社
2025-12-20 13:28:03
向高市早苗示好不到24小時,張本底細(xì)被扒,父母的黑歷史也被翻出

向高市早苗示好不到24小時,張本底細(xì)被扒,父母的黑歷史也被翻出

天天熱點(diǎn)見聞
2025-12-20 06:08:30
萬萬沒想到,女神高圓圓也老成這樣了,有點(diǎn)不敢相信!

萬萬沒想到,女神高圓圓也老成這樣了,有點(diǎn)不敢相信!

沉思默想的人
2025-12-19 05:04:03
2025-12-20 23:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

美方最新表態(tài):不會強(qiáng)迫烏克蘭接受協(xié)議

頭條要聞

美方最新表態(tài):不會強(qiáng)迫烏克蘭接受協(xié)議

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

健康
教育
手機(jī)
藝術(shù)
時尚

這些新療法,讓化療不再那么痛苦

教育要聞

建鄴教育:全區(qū)中考連續(xù)19年超市均分,三所學(xué)校高考成績再攀新高

手機(jī)要聞

華為Pura X官方降價800元 闊折疊新年大禮

藝術(shù)要聞

驚!肢體語言竟如此迷人,讓人無法抗拒!

最顯腿細(xì)的騎士靴,誰穿誰是腿精

無障礙瀏覽 進(jìn)入關(guān)懷版