国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從一道簡單的數(shù)學題,分析大模型原創(chuàng)的必要性

0
分享至

前不久GPT-5正式發(fā)布,預計著大模型創(chuàng)新又到一個新高度。那么,不斷推新的模型究竟處于何種水平,我們用這道經(jīng)典且極具迷惑性的算術(shù)題來測試。

9.9-9.11=?

測試了市面上常使用的DeepSeek、通義、豆包、任度、GPT-5、Gemini2.5Pro六種大模型,分別給出的答案是-0.21、-0.21、0.79、0.79、-0.21、-0.21。

很奇怪吧,為什么錯誤率很高?

DeepSeek


通義


豆包


任度


GPT—5


Gemini 2.5Pro


備注:特別強調(diào),第一次測試沒有開啟深度思考模式。第二次測試,統(tǒng)一打開深度思考模式,結(jié)果都修正了,統(tǒng)一為0.79。

01

大模型為什么比不上小學生?

一個非常有意思的結(jié)果,這就引發(fā)了兩個疑問,一是為什么如此簡單的數(shù)學題,這么多大模型竟然算不對?二是為什么那么多大模型會出現(xiàn)共性的錯誤?

回答第一個問題相對容易,大模型(更準確的說通用大模型)的優(yōu)勢在于信息整理,對于數(shù)學、邏輯問題它沒有那么擅長。

回答第二個問題,則相對復雜。知乎上關(guān)于9.9大還是9.11大?有一個非常細致的討論,包括tokenizer、注意力錯誤、語義建模等技術(shù)問題都有很多人在討論,但都不能明確指出是什么問題導致了這一結(jié)果,都是猜測。

列舉幾個,比如:

分詞機制問題:大模型通常將文本轉(zhuǎn)換為tokens進行處理。對于“9.9”和“9.11”,分詞器可能會將其拆分為不同的 tokens,如“9.9”被拆成“9”“.”“9”三個 token,“9.11” 被拆成“9”“.”“11”三個 token。模型在比較時,可能會簡單地將小數(shù)點后的9和11進行比較,從而得出 9.11 更大的錯誤結(jié)論。

訓練數(shù)據(jù)偏差:在訓練數(shù)據(jù)中,9.11作為日期(9月11日)或軟件版本號等其他非數(shù)值意義的情況可能出現(xiàn)頻率較高,而專門用于訓練基礎(chǔ)數(shù)學數(shù)值比較的語料相對較少。模型基于訓練數(shù)據(jù)進行學習,就容易受到這些常見語境的影響,將9.11默認為某種序列或特定標識,而不是單純的數(shù)值進行比較。

注意力機制缺陷:大模型的注意力機制在處理數(shù)字時,可能對小數(shù)點后的數(shù)字分配了過高的注意力權(quán)重,從而忽略了整體數(shù)值的比較邏輯。例如在比較9.9和9.11時,過于關(guān)注11比9大,而沒有從整體上判斷兩個數(shù)值的大小關(guān)系。

以上都可能導致錯誤結(jié)果出現(xiàn),可見這并不是一個非常小的問題。

還有一個比較重要的因素是:這些大模型的體系是不是相似,要不然怎么會犯同樣的錯誤?

02

大模型“共同錯誤”的根源:同源同缺陷

為什么這么說,從大模型的核心組成聊起。

簡單說,大模型的核心組成有四部分,模塊(骨架)、方法(學習規(guī)則)、框架(運行平臺),以及訓練數(shù)據(jù)。無論是分詞機制問題、訓練數(shù)據(jù)問題,還是注意力缺陷問題……基本都可以歸結(jié)為四個部分之一。

換句話說,之所以這些大模型會出現(xiàn)同樣的錯誤,很大可能性是它們脫胎于同一個開放平臺,就像生命體共享基因會繼承相同的缺陷一樣,大模型共性錯誤源于對同一底層架構(gòu)、類似數(shù)據(jù)的依賴。事實也確實在側(cè)面印證這一猜想。

拿最核心的大模型底層架構(gòu)來說,當前全球主流大模型90%以上基于相同算法架構(gòu)開發(fā),采用近似的訓練數(shù)據(jù)集與優(yōu)化方法。比如都以Transformer架構(gòu)為基礎(chǔ),這種架構(gòu)的自回歸生成機制,使得模型核心目標是文本連貫性而非事實準確性,可能為流暢性犧牲正確性,從而導致一些共性的錯誤模式,如在復雜推理任務(wù)中容易出錯。

再比如,學習規(guī)則的制定、訓練數(shù)據(jù)都面臨同樣的問題。傳統(tǒng)的評估指標如BLEU、ROUGE等側(cè)重文本匹配而非事實正確性,被廣泛使用;錯誤的、帶偏見的訓練數(shù)據(jù)被廣泛復用……

以上不難看出,在大模型不斷發(fā)展的過程中,普遍存在相互借鑒、使用其它模型修改等情況,并非獨立研發(fā)導致共同基因不斷被強化,于是出現(xiàn)了共同的缺陷。

可以進一步推論,如果某些大模型在測試中不出現(xiàn)這個BUG,大概率有三個原因。

1. 基于開源平臺,發(fā)現(xiàn)這個問題后修正了——這個可能性不大,因為這是小Bug,只能冒頭一個查處一個;

2.基于開源平臺,但學習方法、訓練數(shù)據(jù)、推理模式是自研的,避免了這個錯誤,阿里通義大概率屬于這類。

3.完全使用了自己的架構(gòu),全自研,就不會出現(xiàn)這個低級的錯誤。典型如一直堅持“根原創(chuàng)”的任度大模型。他們的特色是,體系(架構(gòu))自研、代碼自研、訓練方法、推理方式、訓練數(shù)據(jù)等等統(tǒng)統(tǒng)都是自研的,在國內(nèi)獨樹一幟,并非“開源”或者“蒸餾”而來。

順便說一下,這里只是基于當前的測試結(jié)果做合理的推測。

03

共同基因缺陷的潛在風險:

從“卡脖子”到體系性崩塌

看似9.9比9.11小是個小問題,但折射出的風險是巨大的。因為知名大模型的底層架構(gòu)就像人的基因,一旦開源被廣泛采用后,導致大模型的錯誤和問題被無限復制。

由此可見,時至今日,我們對于大模型的理解和運用尚處于初級階段,對大模型的了解還只是冰山一角。

大模型共同基因缺陷猶如一把高懸的達摩克利斯之劍,給整個行業(yè)乃至更多產(chǎn)業(yè)帶來了不容忽視的風險。

其一,許多大模型在構(gòu)建過程中,大部分代碼來源于國外開源項目,一旦底層出現(xiàn)安全隱患,極有可能引發(fā)全行業(yè)的多米諾骨牌效應(yīng)。類似的案例數(shù)不勝數(shù)。

其二,如果國外突然斷供,風險將被無限放大。這方面EDA(電子設(shè)計自動化)前車之鑒歷歷在目,這不僅僅是卡脖子問題,而是性命攸關(guān)的問題了。

第三,對產(chǎn)業(yè)鏈的滅頂之災(zāi),進而導致一個產(chǎn)業(yè)的消失,這也不是危言聳聽。這些就不用論再述了吧。

除此之外,底層代碼若被惡意潛伏,將對產(chǎn)業(yè)安全構(gòu)成直接且致命的威脅。想象一下,在金融領(lǐng)域,如果大模型被惡意控制,可能會錯誤地評估信用風險,導致金融機構(gòu)做出錯誤的貸款決策,引發(fā)系統(tǒng)性金融風險;在醫(yī)療領(lǐng)域,大模型若被操控,可能會給出錯誤的診斷建議,危及患者的生命安全。

以上顯然是大家不愿意看到的,這也是如今國家自上而下都在追求自主可控的根本用意。

然而,很多企業(yè)都跑偏了。

04

拒絕認知偏差,大模型時代更要根創(chuàng)新

由此引發(fā)另一個問題,我們該如何面對當前“千篇一律”的大模型應(yīng)用創(chuàng)新?或者說,我們該不該以“拿來主義”當做大模型的必經(jīng)之路?

答案是否定的。

減少或者是從根本上杜絕大模型的“共同基因缺陷”問題,唯一的出路是加強對大模型底層架構(gòu)的研究和創(chuàng)新,構(gòu)建自下而上的全棧創(chuàng)新能力,這樣才能避免“卡脖子”和同質(zhì)化缺陷。

遺憾的是,業(yè)內(nèi)還有不少認知上的偏差。

第一類認知偏差,不需要從頭搞創(chuàng)新,只需要在技術(shù)集成層面搞創(chuàng)新。例如基于國外開源框架(如Transformer衍生架構(gòu))進行參數(shù)調(diào)優(yōu)、功能疊加,卻忽視了底層架構(gòu)的原創(chuàng)性突破。這種模式看似能快速實現(xiàn)商業(yè)化落地,卻如同在他人地基上蓋房子,始終受限于底層框架的設(shè)計邏輯與安全隱患。

第二類認知偏差是,“開源 = 安全”。大模型的開源與傳統(tǒng)軟件開源存在本質(zhì)區(qū)別,傳統(tǒng)軟件開源通常包含完整代碼,可通過社區(qū)協(xié)作快速驗證安全性;而多數(shù)大模型僅開源模型權(quán)重(即訓練結(jié)果),其底層架構(gòu)、訓練數(shù)據(jù)邏輯、安全防護機制仍處于黑箱狀態(tài),要全面驗證其安全性、排查潛在后門,需投入極高的算力與技術(shù)成本,實際安全可控性遠低于傳統(tǒng)開源軟件。就算全部源代碼公開,有多少公司愿意有精力、有時間、有能力去一行行解讀?

第三類認知偏差是,自主創(chuàng)新需要大量資金支持,企業(yè)沒時間沒精力沒人才去搞這個。如果這是小公司的理由,我們還能理解。但如果這是大公司的理由,則顯得“急功近利”。在創(chuàng)新體系中,一般以20%的公司精力孵化一個新項目,不求速成,只求日拱一卒。而且有了原創(chuàng)技術(shù)的加持,只要能尋找到合適的商業(yè)路徑,就容易形成獨立的商業(yè)化閉環(huán),完全反哺技術(shù)原創(chuàng),讓“中國原創(chuàng)”走得更遠,形成生態(tài)。

實際上,華為鴻蒙5.0已經(jīng)給業(yè)內(nèi)做出了榜樣。盡管在過去6年中,華為鴻蒙這條道路走得很艱辛,投入百億研發(fā)費用以及每年萬人團隊,但最終鴻蒙5.0實現(xiàn)全棧自研和自主可控。央視新聞在社交媒體上為其“點贊”,強調(diào)沒有自主操作系統(tǒng)就意味著“被卡脖子”。

AI對社會的影響遠遠高于安卓,如聽任根植于國外開源底層的大模型占領(lǐng)滲透中國市場,那么如果再被迫切換“本土原創(chuàng)”大模型時,其難度將遠遠大于鴻蒙替換安卓。

所以,在當前大模型還沒有全面滲透的當下,最好的辦法是“擼起袖子加油干”。當然,世界上只有華為一家可以在國家戰(zhàn)略的指引下不計價成本“壓強式”投入獲得成功。要想在大模型領(lǐng)域走出“自主創(chuàng)新”之路,單純靠一家或者幾家創(chuàng)新公司的力量畢竟有限。只有所有立志于中國大模型技術(shù)原創(chuàng)的公司,相互支持,以“自主可控”生態(tài)圈的群體力量,就能夠一步一個腳印,做出中國特色的“原創(chuàng)大模型”,從而立足于世界。

全文觀點總結(jié)如下


大模型時代的競爭,本質(zhì)是原創(chuàng)能力與獨立體系的競爭。只有跳出集成思維,聚焦底層創(chuàng)新、構(gòu)建自主商業(yè)化邏輯,才能真正擺脫同源風險,打破卡脖子的困局,實現(xiàn)從跟跑到領(lǐng)跑的跨越,這可能就是一直堅持“根原創(chuàng)”的任度等眾多國內(nèi)大模型的意義所在。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

小熊侃史
2025-12-25 11:27:42
德媒:美國搶中國技術(shù)與人才,中方展開調(diào)查!

德媒:美國搶中國技術(shù)與人才,中方展開調(diào)查!

青木在德國
2026-01-11 21:14:14
換帥如換刀!廣東苦主7戰(zhàn)6勝重新殺回聯(lián)盟前五,季后賽又要變天了

換帥如換刀!廣東苦主7戰(zhàn)6勝重新殺回聯(lián)盟前五,季后賽又要變天了

老葉評球
2026-01-11 11:34:50
說誰?瓊斯:這些球員誰簽的?回CBA前我不想再看這種比賽了

說誰?瓊斯:這些球員誰簽的?回CBA前我不想再看這種比賽了

狼叔評論
2026-01-10 23:06:07
武統(tǒng)還沒開始,上百臺軍飛行員集體跑路?臺專家:統(tǒng)一有了新模式

武統(tǒng)還沒開始,上百臺軍飛行員集體跑路?臺專家:統(tǒng)一有了新模式

青途歷史
2026-01-11 18:58:58
1950年,無錫一位帶8個娃的母親走投無路,給毛主席寫了封信:我是您恩師的兒媳婦

1950年,無錫一位帶8個娃的母親走投無路,給毛主席寫了封信:我是您恩師的兒媳婦

清風鑒史
2026-01-04 23:43:12
意甲主力,印尼歸化國腳伊澤斯的德轉(zhuǎn)身價已達到1000萬歐

意甲主力,印尼歸化國腳伊澤斯的德轉(zhuǎn)身價已達到1000萬歐

懂球帝
2026-01-11 17:55:07
當年在新東方任教時的董宇輝

當年在新東方任教時的董宇輝

太急張三瘋
2026-01-10 04:10:39
片酬高達1500萬!是林峯、宣萱的8倍,古天樂為她可下了血本!

片酬高達1500萬!是林峯、宣萱的8倍,古天樂為她可下了血本!

糊咖娛樂
2026-01-09 15:15:17
哈梅內(nèi)伊開始大范圍斷網(wǎng),革命衛(wèi)隊將與中俄軍演,伊朗進入關(guān)鍵期

哈梅內(nèi)伊開始大范圍斷網(wǎng),革命衛(wèi)隊將與中俄軍演,伊朗進入關(guān)鍵期

溫讀史
2026-01-10 07:33:53
被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
為何我們總是演習,卻遲遲不進攻臺灣?看看金門島戰(zhàn)役就知道了!

為何我們總是演習,卻遲遲不進攻臺灣?看看金門島戰(zhàn)役就知道了!

老蝣說體育
2026-01-07 12:24:53
浙江一網(wǎng)約車司機為送斷指乘客,由交警帶路闖紅燈,出車禍被判全責;本人回應(yīng):好事變成壞事,感覺委屈、困惑、迷茫

浙江一網(wǎng)約車司機為送斷指乘客,由交警帶路闖紅燈,出車禍被判全責;本人回應(yīng):好事變成壞事,感覺委屈、困惑、迷茫

極目新聞
2026-01-11 17:14:21
“早餐這么豐盛,女兒還翻白眼”,2.2w人怒了:讓她餓肚子上學!

“早餐這么豐盛,女兒還翻白眼”,2.2w人怒了:讓她餓肚子上學!

卷史
2025-12-26 21:18:25
兩岸統(tǒng)一的風向:賴清德由獨轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

兩岸統(tǒng)一的風向:賴清德由獨轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績

輝輝歷史記
2026-01-09 17:46:37
“瑜伽褲”,為什么會成為撈女標簽?

“瑜伽褲”,為什么會成為撈女標簽?

馬拉松跑步健身
2026-01-11 15:22:26
中國為何幾乎不拍“元朝歷史劇”?不是不想拍,而是確實不能拍

中國為何幾乎不拍“元朝歷史劇”?不是不想拍,而是確實不能拍

老踝是個手藝人
2026-01-07 09:24:27
深圳人挺住!最冷“三九”到來,跌破10℃的魔法攻擊還要持續(xù)多久

深圳人挺??!最冷“三九”到來,跌破10℃的魔法攻擊還要持續(xù)多久

芭比衣櫥
2026-01-11 05:38:43
中國女排留洋球員匯總,莊宇珊遇瓶頸龔翔宇放異彩,王媛媛入佳境

中國女排留洋球員匯總,莊宇珊遇瓶頸龔翔宇放異彩,王媛媛入佳境

金風說
2026-01-11 20:18:45
馮小剛徐帆婚變實錘?密會陳思誠3小時,養(yǎng)女成“托孤”籌碼

馮小剛徐帆婚變實錘?密會陳思誠3小時,養(yǎng)女成“托孤”籌碼

未曾青梅
2026-01-10 18:26:19
2026-01-11 22:24:49
大數(shù)網(wǎng)
大數(shù)網(wǎng)
專注企業(yè)級報道
1850文章數(shù) 4631關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

10人違規(guī)吃喝1人飲酒后死亡 組織者曾找商人借錢補償

頭條要聞

10人違規(guī)吃喝1人飲酒后死亡 組織者曾找商人借錢補償

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
手機
旅游

藝術(shù)要聞

砸18億!游戲巨頭落子廣州!詩悅網(wǎng)絡(luò)總部大樓新進展

數(shù)碼要聞

ECS精英推出Liva Z系列迷你主機,多CPU可選

親子要聞

媽媽記錄下寶寶正在和自己的影子玩,網(wǎng)友:他在慢慢地探索著世界

手機要聞

AI需求引發(fā)存儲芯片成本飆升,魅族22 Air無奈取消上市

旅游要聞

被央視點贊!356 萬人打卡的冰雪童話,才是文旅界的 “天花板”

無障礙瀏覽 進入關(guān)懷版