国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓AI像人類一樣做高考數(shù)學(xué)題,夸克領(lǐng)跑、豆包緊隨

0
分享至

一年一度的高考落下帷幕。對(duì)大模型來(lái)說(shuō),這已經(jīng)是它第三次參與這場(chǎng)本屬于人類考生的考試。

但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫(xiě)高考作文。今年隨著推理模型的火熱,人們開(kāi)始熱衷讓它參與高考數(shù)學(xué)。

一個(gè)有意思的變化在于,這兩天各種各樣的高考數(shù)學(xué)測(cè)評(píng)結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學(xué)成績(jī)也不錯(cuò)的理科生。

為驗(yàn)證這一結(jié)果,我們也選取了四個(gè)AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進(jìn)行測(cè)評(píng)。

由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國(guó)新課標(biāo)數(shù)學(xué)I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開(kāi)啟聯(lián)網(wǎng)搜索,所有測(cè)試模型只有一次答題機(jī)會(huì)。

關(guān)于考核標(biāo)準(zhǔn),我們覺(jué)得如果讓AI參與考試,就應(yīng)該把它們當(dāng)作一個(gè)真正的考生考核。

所以,本次測(cè)評(píng)拆解了三大維度

  • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
  • 答題速度:考試有時(shí)間限制,AI考生也應(yīng)該注意時(shí)間安排。
  • 識(shí)別準(zhǔn)確率:人類考生需要審題準(zhǔn)確,不能出現(xiàn)看錯(cuò)數(shù)字、符號(hào)等問(wèn)題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

基于這三個(gè)維度,我們通過(guò)分別打分再計(jì)總分的形式,測(cè)試出AI考生們的高考數(shù)學(xué)的考試名次。

更細(xì)致的"閱卷規(guī)則"參考:

經(jīng)過(guò)以上三個(gè)維度的綜合測(cè)試,最終AI考生們的全面考察結(jié)果如下:

如果單看純粹的卷面分,這幾家AI考生的數(shù)學(xué)分?jǐn)?shù)都在110分以上。想起去年,AI們的高考數(shù)學(xué)題還經(jīng)常不及格,真是今非昔比。

而且,不僅是做題,這些AI選手們的解題速度和視覺(jué)理解能力都非常強(qiáng)——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒(méi)有識(shí)別出其中的一道題目,其他AI助手在識(shí)別上都拿了滿分。

誰(shuí)答對(duì)了最多題?

直接的考試分?jǐn)?shù),是考生最關(guān)心的事情。

根據(jù)卷面分?jǐn)?shù),夸克、豆包和ChatGPT分列前三。

一個(gè)小插曲是,ChatGPT在難題中經(jīng)常嘗試寫(xiě)代碼解題,準(zhǔn)確率較高。但考慮到高考現(xiàn)場(chǎng)的考生們不會(huì)配備電腦寫(xiě)代碼解題,所以我們立刻禁止了它寫(xiě)代碼。

整體看下來(lái),大家的選擇題和填空題得分差距不是非常大,錯(cuò)誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對(duì)。

解答題是讓各家AI考生有點(diǎn)為難的題目。尤其是16題,大家都有錯(cuò)誤。

首先是元寶,從一開(kāi)始沒(méi)能識(shí)別出這一道題目,所以也就無(wú)法作答——這也是我們這次測(cè)試中,唯一一個(gè)沒(méi)有被某一模型識(shí)別出的題目。

豆包在這道題上犯錯(cuò)的原因也有點(diǎn)令人迷惑,題目解題思路過(guò)程都是對(duì)的,就是要把題目中的“m”改成“n”。

感覺(jué)這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開(kāi),正確理解m的含義。

在選擇和填空上第一名的夸克,第16題中的錯(cuò)誤很可惜地發(fā)生在最后一步——“利用錯(cuò)位相減法”得出最終結(jié)果的部分。

向上翻了一下思考過(guò)程,發(fā)現(xiàn)它有點(diǎn)“心口不一”。一邊說(shuō)著“相加”,一邊算著“相減”,最后結(jié)果錯(cuò)誤。

誰(shuí)答得最快,審題最清晰?

答題速度,屬于AI考生們的舒適區(qū)。

基本上,這四個(gè)AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過(guò)了一分鐘(但還是很)。

來(lái)到解答題,大家的耗時(shí)意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

不過(guò)在耗時(shí)更長(zhǎng)的解題過(guò)程里,我們也看到一些驚喜。比如,ChatGPT會(huì)自己放大題目、左看右看,確認(rèn)識(shí)別沒(méi)有問(wèn)題后再開(kāi)始解題。

夸克和豆包也很讓人驚喜。在整體的速度測(cè)評(píng)中,夸克位列第一,豆包以一分之差位列第二。

這兩家做最難的解答題,單題最長(zhǎng)耗費(fèi)時(shí)間在4分鐘左右。

至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒(méi)讓人失望。除了元寶有一題識(shí)別不出來(lái),其他考生都是滿分。

不同的輸出風(fēng)格,讓我找到AI老師

測(cè)到這里,本次AI考生的高考數(shù)學(xué)測(cè)評(píng)基本可以結(jié)束了。

但在就在核對(duì)答案的過(guò)程中,我還有一個(gè)不同尋常的發(fā)現(xiàn)。

參與測(cè)評(píng)的AI考生背后,基本都是推理模型。在仔細(xì)看大家的輸出時(shí),我發(fā)現(xiàn)不同考生的思維輸出風(fēng)格存在差異。而這種差異,會(huì)給真正想通過(guò)AI學(xué)習(xí)的考生,帶來(lái)不同的感覺(jué)和效果。

比如,豆包的思維鏈展示很長(zhǎng)很完整,答案卻很簡(jiǎn)潔??淇说妮敵龈咭龑?dǎo)性,比較像老師。元寶的內(nèi)容,更像是數(shù)學(xué)學(xué)霸,很喜歡計(jì)算和公式。

拿頗具難度的第19題舉例。

同樣是啟動(dòng)深度思考模式,夸克不會(huì)把所有的思考過(guò)程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個(gè)思路里面,也會(huì)劃一些高中考點(diǎn)。

相比之下,豆包和元寶有點(diǎn)"做題機(jī)器"。

在等待豆包給出答案的過(guò)程中,可以看到豆包會(huì)將長(zhǎng)長(zhǎng)長(zhǎng)的思考思維鏈完整輸出。之后的解答部分雖然簡(jiǎn)潔,但看表述確實(shí)只能用來(lái)對(duì)答案,難以引發(fā)思考。

元寶的回答少了一些清晰的思路指引。相對(duì)于夸克和豆包,計(jì)算步驟都更復(fù)雜一些,基本直奔計(jì)算而去,不會(huì)在表述中強(qiáng)調(diào)考點(diǎn)。

如果從認(rèn)真學(xué)習(xí)的角度,相信還是有更多人喜歡夸克老師的引導(dǎo)式畫(huà)風(fēng)。

總之,這一次的測(cè)評(píng)中,我們真實(shí)把這四個(gè)AI考生真正當(dāng)作人類測(cè)試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進(jìn)步已經(jīng)超出想象。隨著AI越來(lái)越聰明,或許我會(huì)收獲更多的老師。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
當(dāng)年侮辱祖國(guó),拋棄國(guó)籍,投奔美軍的博士趙潘書(shū),現(xiàn)狀大快人心

當(dāng)年侮辱祖國(guó),拋棄國(guó)籍,投奔美軍的博士趙潘書(shū),現(xiàn)狀大快人心

談史論天地
2026-03-27 09:23:53
馬斯切拉諾辭職!有梅西都不會(huì)執(zhí)教!邁阿密國(guó)際迎來(lái)轉(zhuǎn)機(jī)?

馬斯切拉諾辭職!有梅西都不會(huì)執(zhí)教!邁阿密國(guó)際迎來(lái)轉(zhuǎn)機(jī)?

歷史第一人梅西
2026-04-15 11:05:13
長(zhǎng)期被冤枉的5個(gè)好東西,以為有害,其實(shí)超健康,別再被騙了!

長(zhǎng)期被冤枉的5個(gè)好東西,以為有害,其實(shí)超健康,別再被騙了!

Home范
2026-04-14 11:14:17
贏麻了!繼上次奪冠后,張雪機(jī)車再拿第一,國(guó)外品牌徹底坐不住

贏麻了!繼上次奪冠后,張雪機(jī)車再拿第一,國(guó)外品牌徹底坐不住

沙雕小琳琳
2026-04-15 13:46:37
歐冠次回合前瞻:拜仁主場(chǎng)穩(wěn)了,阿森納小心翻車

歐冠次回合前瞻:拜仁主場(chǎng)穩(wěn)了,阿森納小心翻車

樂(lè)道足球
2026-04-15 15:18:20
鄭麗文明明沒(méi)有實(shí)權(quán),大陸為什么還要公布惠臺(tái)政策?

鄭麗文明明沒(méi)有實(shí)權(quán),大陸為什么還要公布惠臺(tái)政策?

阿龍聊軍事
2026-04-14 09:36:48
蘋(píng)果放出狠話:只要打開(kāi)這個(gè)開(kāi)關(guān),目前全球無(wú)人能黑進(jìn)你的 iPhone

蘋(píng)果放出狠話:只要打開(kāi)這個(gè)開(kāi)關(guān),目前全球無(wú)人能黑進(jìn)你的 iPhone

小兔子發(fā)現(xiàn)大事情
2026-04-13 14:13:39
同學(xué)聚會(huì),班長(zhǎng)讓我給遲到的鎮(zhèn)長(zhǎng)讓座,下一秒,縣長(zhǎng)向我道歉

同學(xué)聚會(huì),班長(zhǎng)讓我給遲到的鎮(zhèn)長(zhǎng)讓座,下一秒,縣長(zhǎng)向我道歉

農(nóng)村情感故事
2026-03-23 07:31:39
要想拿到20億的遺產(chǎn),得交11億的稅?中山美穗獨(dú)子放棄繼承遺產(chǎn)引發(fā)日本社會(huì)關(guān)注…

要想拿到20億的遺產(chǎn),得交11億的稅?中山美穗獨(dú)子放棄繼承遺產(chǎn)引發(fā)日本社會(huì)關(guān)注…

日本通
2026-04-14 15:03:49
實(shí)習(xí)律師倒貼上班,被領(lǐng)導(dǎo)在500人律師群里罵白眼狼,惹律師眾怒

實(shí)習(xí)律師倒貼上班,被領(lǐng)導(dǎo)在500人律師群里罵白眼狼,惹律師眾怒

漢史趣聞
2026-04-14 16:51:04
任正非小女兒姚安娜代言華為新手機(jī)Pura X Max,另一位代言人系演員王安宇;華為高管李小龍:這是他使用過(guò)的最出色雙折疊屏設(shè)備

任正非小女兒姚安娜代言華為新手機(jī)Pura X Max,另一位代言人系演員王安宇;華為高管李小龍:這是他使用過(guò)的最出色雙折疊屏設(shè)備

魯中晨報(bào)
2026-04-15 14:36:42
斯波:三球絆倒阿德巴約的動(dòng)作愚蠢又危險(xiǎn),他本該被驅(qū)逐出場(chǎng)

斯波:三球絆倒阿德巴約的動(dòng)作愚蠢又危險(xiǎn),他本該被驅(qū)逐出場(chǎng)

懂球帝
2026-04-15 13:28:18
又有2名間諜被抓!潛藏中國(guó)17年,境外滲透曝光,泄密細(xì)節(jié)驚人

又有2名間諜被抓!潛藏中國(guó)17年,境外滲透曝光,泄密細(xì)節(jié)驚人

蜉蝣說(shuō)
2026-04-15 11:03:59
33歲抗癌博主李懷清去世,臨終把3歲兒子托付給弟弟,妻子已離婚

33歲抗癌博主李懷清去世,臨終把3歲兒子托付給弟弟,妻子已離婚

林大師熱點(diǎn)
2026-04-14 18:00:29
任天堂給7個(gè)人喂了7個(gè)版本假消息,只為抓一個(gè)內(nèi)鬼

任天堂給7個(gè)人喂了7個(gè)版本假消息,只為抓一個(gè)內(nèi)鬼

硅嶼手記
2026-04-13 08:39:07
吃偉哥面紅耳赤別再硬扛!國(guó)產(chǎn)創(chuàng)新藥司美那非了解下

吃偉哥面紅耳赤別再硬扛!國(guó)產(chǎn)創(chuàng)新藥司美那非了解下

百濟(jì)健康
2026-04-14 13:47:32
文章新開(kāi)面館口味評(píng)分3.6分,網(wǎng)友:30多元一碗面有點(diǎn)貴

文章新開(kāi)面館口味評(píng)分3.6分,網(wǎng)友:30多元一碗面有點(diǎn)貴

紅星新聞
2026-04-13 17:22:41
新北選情生變 李四川優(yōu)勢(shì)全無(wú)!侯友宜成最大包袱 鄭麗文要下決心了

新北選情生變 李四川優(yōu)勢(shì)全無(wú)!侯友宜成最大包袱 鄭麗文要下決心了

娛樂(lè)小可愛(ài)蛙
2026-04-14 20:57:33
中俄動(dòng)作迅猛,特朗普炮頭調(diào)轉(zhuǎn),對(duì)日審判已經(jīng)開(kāi)始,高市被催下臺(tái)

中俄動(dòng)作迅猛,特朗普炮頭調(diào)轉(zhuǎn),對(duì)日審判已經(jīng)開(kāi)始,高市被催下臺(tái)

軒逸阿II
2026-04-12 05:19:52
北京明日有小雨、氣溫下降,外出記得帶傘

北京明日有小雨、氣溫下降,外出記得帶傘

新京報(bào)
2026-04-15 13:29:55
2026-04-15 16:11:00
四木相對(duì)論 incentive-icons
四木相對(duì)論
嘮嘮科技,看看世界
127文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

手機(jī)無(wú)死角上網(wǎng)?亞馬遜砸百億硬剛馬斯克

頭條要聞

浙江61歲男子持長(zhǎng)矛殺鄰居后自首 被判死刑立即執(zhí)行

頭條要聞

浙江61歲男子持長(zhǎng)矛殺鄰居后自首 被判死刑立即執(zhí)行

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

曾志偉辦73歲生日派對(duì),逾百藝人到場(chǎng)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

海豹08內(nèi)飾首秀 大滿配“海王”旗艦

態(tài)度原創(chuàng)

藝術(shù)
教育
房產(chǎn)
親子
健康

藝術(shù)要聞

這山水,蕩滌胸中塵埃

教育要聞

民辦前五,成績(jī)靠譜,吃好住好,分?jǐn)?shù)不高,今年沖他!

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

親子要聞

周末在家?guī)?,我和安吉拉帶三寶去健身,各司其職有條不紊

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版