国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

你是否也曾榨干過(guò)DeepSeek?

0
分享至

在今年深度體驗(yàn)AI大模型的3個(gè)月里,我發(fā)現(xiàn)無(wú)論他回答的對(duì)不對(duì),大多數(shù)時(shí)候,他基本都能在1分鐘內(nèi)能生成回答(很多時(shí)候是秒答),無(wú)論回答質(zhì)量如何,是否有幻覺(jué),他都能很快給你答完就是了。

但是,有這么一類問(wèn)題,他的答案普遍簡(jiǎn)短,有的短到只有一個(gè)單詞,長(zhǎng)的也不超過(guò)10個(gè)單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過(guò)程中動(dòng)不動(dòng)還爆出數(shù)千字以上的思維鏈。

比如下面這個(gè)問(wèn)題:

中間的思維鏈就更長(zhǎng)了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個(gè)wait:

還有下面這個(gè)問(wèn)題,花了將近6分鐘

這兩個(gè)問(wèn)題,別看題目不長(zhǎng),答案也都很短,大模型花了這么久,但是依然做錯(cuò)了。

這些問(wèn)題,都來(lái)自一個(gè)測(cè)試,就是OpenAI在4月上旬發(fā)布的BrowseCamp,瀏覽競(jìng)賽。

這個(gè)測(cè)試,主要就測(cè)一個(gè)能力:定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實(shí)說(shuō)白了,就是要看看大模型們?yōu)g覽網(wǎng)頁(yè)和搜索信息的能力,到底強(qiáng)到什么地步了?因?yàn)楝F(xiàn)有的測(cè)試比如SimpleQA,其實(shí)已經(jīng)被“刷爆”了。

但是,基本上沒(méi)太多人討論這個(gè) BrowseCamp,它被淹沒(méi)在4o生圖的火熱和最近的o3模型的發(fā)布之中了。

瀏覽競(jìng)賽里的問(wèn)題集的最大特點(diǎn),就是答案簡(jiǎn)單,但是,題干一定會(huì)用最虛無(wú)縹緲的特征描述,把簡(jiǎn)單的答案層層包裹起來(lái)。

比如,答案是一個(gè)歷史名人,但是,題干是這個(gè)人最冷僻、最不為人所知的信息點(diǎn),甚至是有很大誤導(dǎo)性的信息點(diǎn),比如這個(gè)描述同時(shí)也有很多其它人符合或者是很籠統(tǒng)的描述,最終,你會(huì)很難猜這個(gè)人是誰(shuí)。

比如劉備,大家都知道,如果問(wèn)桃園三結(jié)義里的大哥是誰(shuí),那就太好猜了。

如果這么問(wèn):某河北籍男子,身高1米88,15歲外出求學(xué),中年創(chuàng)業(yè)多次失敗,兒子很不成器,晚年因?yàn)橐o弟弟報(bào)仇,63歲客死他鄉(xiāng)。

是不是難了很多?

當(dāng)然,理論上,還要加入更多的限制性條件,讓答案唯一。

以上信息,還算是很好找的,所有信息都在一個(gè)百度百科的網(wǎng)頁(yè)里都有了(因?yàn)榫褪俏規(guī)追昼妰?nèi)現(xiàn)編的,如果信息有誤請(qǐng)找百度)。

但問(wèn)題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導(dǎo)一點(diǎn)的話,大模型往往需要橫跨數(shù)十個(gè)甚至上百個(gè)網(wǎng)頁(yè),才有可能定位到其中某個(gè)信息,然后開(kāi)始驗(yàn)證,排除,再查找,再驗(yàn)證...最后,答錯(cuò)了。

官方論文里的另一個(gè)例題:請(qǐng)告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會(huì)議上的論文,其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院(Dartmouth College),第四作者本科畢業(yè)于賓夕法尼亞大學(xué)(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

這些問(wèn)題在知道答案的時(shí)候,都很容易確認(rèn),就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數(shù)千篇論文了。

這是官方所謂的“驗(yàn)證的不對(duì)稱性 asymmetry of verification ”:驗(yàn)證 容易,解答困難。但是,這就恰恰符合了這個(gè)測(cè)試的目標(biāo):大模型的檢索能力。

雖不完美,卻也有效。它不是考驗(yàn) next token predidtion的能力,畢竟題干和答案都很短,也不太考驗(yàn)推理能力,因?yàn)椴惶枰裁瓷疃妊芯糠治觯ú贿^(guò) 普遍來(lái)說(shuō)推理模型的表現(xiàn)還是會(huì)更好),只要找得到信息,就能回答正確。

下圖顯示了 BrowseCamp的整體測(cè)試結(jié)果:花的時(shí)間越久,正確率越高,這也是之前DeepSeek會(huì)花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴(yán)格來(lái)說(shuō),它還不算一個(gè)模型,而是agent

瀏覽競(jìng)賽里的問(wèn)題,實(shí)在也不好編,官方說(shuō),現(xiàn)在攏共只有1266個(gè)問(wèn)題。官網(wǎng)放出了5道例題,我分別讓DeepSeek V3、R1不開(kāi)聯(lián)網(wǎng)、R1開(kāi)聯(lián)網(wǎng),分別測(cè)試了5個(gè)問(wèn)題,每次都新開(kāi)對(duì)話窗口,一共15次測(cè)試,全軍覆沒(méi)。(注意,這并非是說(shuō) DeepSeek一道都做不對(duì),而是正確率大概率很低)

而且,在沒(méi)有聯(lián)網(wǎng)的情況下,出現(xiàn)了前述 的超長(zhǎng)回答時(shí)間的問(wèn)題,理論上,這種自我榨干的情況不該出現(xiàn),它應(yīng)該早一點(diǎn)發(fā)現(xiàn)自己其實(shí)根本無(wú)法作答,然后再給出一個(gè)它認(rèn)為最有可能正確的猜測(cè)即可(注:R1的表現(xiàn)比V3好)。

那么,到底什么模型表現(xiàn)最好呢?很遺憾,OpenAI還只測(cè)試了自家的模型,暫時(shí)沒(méi)啥橫向可比性,雖然我認(rèn)為瀏覽網(wǎng)頁(yè)和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個(gè)。

新上線的o3,不提它在視覺(jué)理解方面的能力,就因?yàn)橄啾萶1有了browsing功能(當(dāng)然還有更強(qiáng)的推理能力),正確率提高了很多。(o1在沒(méi)有聯(lián)網(wǎng)功能的情況下,僅靠?jī)?nèi)部知識(shí)庫(kù),答對(duì)了其中10%的問(wèn)題)

我的三個(gè)小心得:

1、無(wú)論現(xiàn)有大模型在browsing方面表現(xiàn)如何,它們都在飛快進(jìn)步和提升;

2、一旦遇到這種要查很多資料的任務(wù),先讓大模型做一遍, 做對(duì)最好,沒(méi)做對(duì)也沒(méi)關(guān)系,它的搜索過(guò)程和給出的回答,還是能給你節(jié)約不少時(shí)間;

3、不要只問(wèn)一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續(xù)給更多提示詞,問(wèn)第二次,第三次,榨干它,很快,你也會(huì)接近答錯(cuò)了

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗媒體稱霍爾木茲海峽再關(guān)閉

伊朗媒體稱霍爾木茲海峽再關(guān)閉

財(cái)聯(lián)社
2026-04-09 04:09:04
繼德國(guó)之后,英國(guó)也開(kāi)始貼出“中文標(biāo)語(yǔ)”?中國(guó)游客:不能夠接受

繼德國(guó)之后,英國(guó)也開(kāi)始貼出“中文標(biāo)語(yǔ)”?中國(guó)游客:不能夠接受

潮鹿逐夢(mèng)
2026-04-02 12:31:48
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開(kāi)眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開(kāi)眼

小鹿姐姐情感說(shuō)
2026-04-09 04:17:27
看到了魯比奧的對(duì)華發(fā)言,才愕然發(fā)現(xiàn),原來(lái)中國(guó)已經(jīng)這么牛了

看到了魯比奧的對(duì)華發(fā)言,才愕然發(fā)現(xiàn),原來(lái)中國(guó)已經(jīng)這么牛了

娛樂(lè)小可愛(ài)蛙
2026-04-08 03:05:57
當(dāng)你有了存款會(huì)瞞著身邊人嗎?網(wǎng)友:存錢(qián)就連親爹媽都別告訴

當(dāng)你有了存款會(huì)瞞著身邊人嗎?網(wǎng)友:存錢(qián)就連親爹媽都別告訴

帶你感受人間冷暖
2026-02-23 00:30:12
60年代毛澤東指示急電臺(tái)灣,蔣介石閱完電報(bào)心中一顫:把經(jīng)國(guó)叫來(lái)

60年代毛澤東指示急電臺(tái)灣,蔣介石閱完電報(bào)心中一顫:把經(jīng)國(guó)叫來(lái)

楚風(fēng)說(shuō)歷史
2026-04-08 17:30:03
國(guó)民黨由盛轉(zhuǎn)衰五大關(guān)鍵推手,李登輝只能排第二,第一實(shí)至名歸!

國(guó)民黨由盛轉(zhuǎn)衰五大關(guān)鍵推手,李登輝只能排第二,第一實(shí)至名歸!

夢(mèng)史
2026-03-25 04:13:02
A股十大“分紅王”股票

A股十大“分紅王”股票

風(fēng)風(fēng)順
2026-04-05 03:05:03
孫中山遺體,為何從開(kāi)始的永久保存供人瞻仰,轉(zhuǎn)變?yōu)榛炷练夤?>
    </a>
        <h3>
      <a href=云霄紀(jì)史觀
2026-03-31 16:47:50
歐冠1/4決賽首回合:大巴黎2-0利物浦,10人巴薩0-2不敵馬競(jìng)

歐冠1/4決賽首回合:大巴黎2-0利物浦,10人巴薩0-2不敵馬競(jìng)

全景體育V
2026-04-09 06:24:10
每秒飛1光年也沒(méi)用!殘酷的事實(shí)證明,人類永遠(yuǎn)也飛不出宇宙

每秒飛1光年也沒(méi)用!殘酷的事實(shí)證明,人類永遠(yuǎn)也飛不出宇宙

觀察宇宙
2026-04-06 11:31:01
反轉(zhuǎn)!2026油電新政實(shí)錘,曾經(jīng)省錢(qián)的電車,如今成本反超油車?

反轉(zhuǎn)!2026油電新政實(shí)錘,曾經(jīng)省錢(qián)的電車,如今成本反超油車?

小李子體育
2026-04-09 04:29:12
1977年,李敏見(jiàn)到失散多年的親姐楊月花,楊月花卻向李敏提一要求

1977年,李敏見(jiàn)到失散多年的親姐楊月花,楊月花卻向李敏提一要求

磊子講史
2025-12-23 20:04:20
X熱議:女性喜歡的臉 vs 男性喜歡的臉

X熱議:女性喜歡的臉 vs 男性喜歡的臉

東京新青年
2026-03-28 11:02:30
他到底還要?dú)Ф嗌俨縿“???>
    </a>
        <h3>
      <a href=毒舌一姐
2026-04-07 17:05:23
涼透了的專業(yè),頂級(jí)碩士也在網(wǎng)絡(luò)哭訴:月薪4500!

涼透了的專業(yè),頂級(jí)碩士也在網(wǎng)絡(luò)哭訴:月薪4500!

黯泉
2026-04-07 22:03:00
萊斯特城慘遭雙殺!扣6分上訴被無(wú)情駁回,昔日冠軍深陷保級(jí)區(qū)

萊斯特城慘遭雙殺!扣6分上訴被無(wú)情駁回,昔日冠軍深陷保級(jí)區(qū)

仰臥撐FTUer
2026-04-09 07:29:01
血賺!曼聯(lián)省下 1 億不簽安德森,租借小將竟是下一個(gè)卡塞米羅

血賺!曼聯(lián)省下 1 億不簽安德森,租借小將竟是下一個(gè)卡塞米羅

瀾歸序
2026-04-09 05:39:35
本周末,北京這些路段交通管制,公交采取臨時(shí)運(yùn)營(yíng)措施

本周末,北京這些路段交通管制,公交采取臨時(shí)運(yùn)營(yíng)措施

趣味萌寵的日常
2026-04-09 06:33:31
全新一代奧迪A6L銷量大跌!2.0T最新發(fā)動(dòng)機(jī)8秒多才破百,減配減料

全新一代奧迪A6L銷量大跌!2.0T最新發(fā)動(dòng)機(jī)8秒多才破百,減配減料

趣味萌寵的日常
2026-04-08 17:05:35
2026-04-09 08:48:49
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、鈦媒體專欄作者
221文章數(shù) 387關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

頭條要聞

一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

體育要聞

40歲,但實(shí)力倒退12年

娛樂(lè)要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財(cái)經(jīng)要聞

局勢(shì)再升級(jí)!霍爾木茲海峽關(guān)閉

汽車要聞

20萬(wàn)級(jí)滿配華為全家桶 華境S是懂家庭的大六座

態(tài)度原創(chuàng)

數(shù)碼
家居
親子
公開(kāi)課
軍事航空

數(shù)碼要聞

銘凡M1 Lite-125U迷你機(jī)首發(fā)2119元起 搭載Ultra 5 125U

家居要聞

自在恣意 侘寂風(fēng)別墅

親子要聞

深圳婦幼救治孕期22周超早產(chǎn)兒,出生體重僅550克

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

霍爾木茲海峽已再次關(guān)閉

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版