網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從一道簡單的數(shù)學題，分析大模型原創(chuàng)的必要性

2025-08-22 11:30:15　來源: 大數(shù)網(wǎng)

北京舉報

分享至

前不久GPT-5正式發(fā)布，預計著大模型創(chuàng)新又到一個新高度。那么，不斷推新的模型究竟處于何種水平，我們用這道經(jīng)典且極具迷惑性的算術(shù)題來測試。

9.9-9.11=？

測試了市面上常使用的DeepSeek、通義、豆包、任度、GPT-5、Gemini2.5Pro六種大模型，分別給出的答案是-0.21、-0.21、0.79、0.79、-0.21、-0.21。

很奇怪吧，為什么錯誤率很高？

DeepSeek

通義

豆包

任度

GPT—5

Gemini 2.5Pro

備注：特別強調(diào)，第一次測試沒有開啟深度思考模式。第二次測試，統(tǒng)一打開深度思考模式，結(jié)果都修正了，統(tǒng)一為0.79。

大模型為什么比不上小學生？

一個非常有意思的結(jié)果，這就引發(fā)了兩個疑問，一是為什么如此簡單的數(shù)學題，這么多大模型竟然算不對？二是為什么那么多大模型會出現(xiàn)共性的錯誤？

回答第一個問題相對容易，大模型（更準確的說通用大模型）的優(yōu)勢在于信息整理，對于數(shù)學、邏輯問題它沒有那么擅長。

回答第二個問題，則相對復雜。知乎上關(guān)于9.9大還是9.11大？有一個非常細致的討論，包括tokenizer、注意力錯誤、語義建模等技術(shù)問題都有很多人在討論，但都不能明確指出是什么問題導致了這一結(jié)果，都是猜測。

列舉幾個，比如：

分詞機制問題：大模型通常將文本轉(zhuǎn)換為tokens進行處理。對于“9.9”和“9.11”，分詞器可能會將其拆分為不同的 tokens，如“9.9”被拆成“9”“.”“9”三個 token，“9.11” 被拆成“9”“.”“11”三個 token。模型在比較時，可能會簡單地將小數(shù)點后的9和11進行比較，從而得出 9.11 更大的錯誤結(jié)論。

訓練數(shù)據(jù)偏差：在訓練數(shù)據(jù)中，9.11作為日期（9月11日）或軟件版本號等其他非數(shù)值意義的情況可能出現(xiàn)頻率較高，而專門用于訓練基礎(chǔ)數(shù)學數(shù)值比較的語料相對較少。模型基于訓練數(shù)據(jù)進行學習，就容易受到這些常見語境的影響，將9.11默認為某種序列或特定標識，而不是單純的數(shù)值進行比較。

注意力機制缺陷：大模型的注意力機制在處理數(shù)字時，可能對小數(shù)點后的數(shù)字分配了過高的注意力權(quán)重，從而忽略了整體數(shù)值的比較邏輯。例如在比較9.9和9.11時，過于關(guān)注11比9大，而沒有從整體上判斷兩個數(shù)值的大小關(guān)系。

以上都可能導致錯誤結(jié)果出現(xiàn)，可見這并不是一個非常小的問題。

還有一個比較重要的因素是：這些大模型的體系是不是相似,要不然怎么會犯同樣的錯誤？

大模型“共同錯誤”的根源：同源同缺陷

為什么這么說，從大模型的核心組成聊起。

簡單說，大模型的核心組成有四部分，模塊（骨架）、方法（學習規(guī)則）、框架（運行平臺），以及訓練數(shù)據(jù)。無論是分詞機制問題、訓練數(shù)據(jù)問題，還是注意力缺陷問題……基本都可以歸結(jié)為四個部分之一。

換句話說，之所以這些大模型會出現(xiàn)同樣的錯誤，很大可能性是它們脫胎于同一個開放平臺，就像生命體共享基因會繼承相同的缺陷一樣，大模型共性錯誤源于對同一底層架構(gòu)、類似數(shù)據(jù)的依賴。事實也確實在側(cè)面印證這一猜想。

拿最核心的大模型底層架構(gòu)來說，當前全球主流大模型90%以上基于相同算法架構(gòu)開發(fā)，采用近似的訓練數(shù)據(jù)集與優(yōu)化方法。比如都以Transformer架構(gòu)為基礎(chǔ)，這種架構(gòu)的自回歸生成機制，使得模型核心目標是文本連貫性而非事實準確性，可能為流暢性犧牲正確性，從而導致一些共性的錯誤模式，如在復雜推理任務(wù)中容易出錯。

再比如，學習規(guī)則的制定、訓練數(shù)據(jù)都面臨同樣的問題。傳統(tǒng)的評估指標如BLEU、ROUGE等側(cè)重文本匹配而非事實正確性，被廣泛使用；錯誤的、帶偏見的訓練數(shù)據(jù)被廣泛復用……

以上不難看出，在大模型不斷發(fā)展的過程中，普遍存在相互借鑒、使用其它模型修改等情況，并非獨立研發(fā)導致共同基因不斷被強化，于是出現(xiàn)了共同的缺陷。

可以進一步推論，如果某些大模型在測試中不出現(xiàn)這個BUG，大概率有三個原因。

1. 基于開源平臺，發(fā)現(xiàn)這個問題后修正了——這個可能性不大，因為這是小Bug,只能冒頭一個查處一個；

2.基于開源平臺，但學習方法、訓練數(shù)據(jù)、推理模式是自研的，避免了這個錯誤，阿里通義大概率屬于這類。

3.完全使用了自己的架構(gòu)，全自研，就不會出現(xiàn)這個低級的錯誤。典型如一直堅持“根原創(chuàng)”的任度大模型。他們的特色是，體系（架構(gòu)）自研、代碼自研、訓練方法、推理方式、訓練數(shù)據(jù)等等統(tǒng)統(tǒng)都是自研的，在國內(nèi)獨樹一幟，并非“開源”或者“蒸餾”而來。

順便說一下，這里只是基于當前的測試結(jié)果做合理的推測。

共同基因缺陷的潛在風險：

從“卡脖子”到體系性崩塌

看似9.9比9.11小是個小問題，但折射出的風險是巨大的。因為知名大模型的底層架構(gòu)就像人的基因，一旦開源被廣泛采用后，導致大模型的錯誤和問題被無限復制。

由此可見，時至今日，我們對于大模型的理解和運用尚處于初級階段，對大模型的了解還只是冰山一角。

大模型共同基因缺陷猶如一把高懸的達摩克利斯之劍，給整個行業(yè)乃至更多產(chǎn)業(yè)帶來了不容忽視的風險。

其一，許多大模型在構(gòu)建過程中，大部分代碼來源于國外開源項目，一旦底層出現(xiàn)安全隱患，極有可能引發(fā)全行業(yè)的多米諾骨牌效應(yīng)。類似的案例數(shù)不勝數(shù)。

其二，如果國外突然斷供，風險將被無限放大。這方面EDA（電子設(shè)計自動化）前車之鑒歷歷在目，這不僅僅是卡脖子問題，而是性命攸關(guān)的問題了。

第三，對產(chǎn)業(yè)鏈的滅頂之災(zāi)，進而導致一個產(chǎn)業(yè)的消失，這也不是危言聳聽。這些就不用論再述了吧。

除此之外，底層代碼若被惡意潛伏，將對產(chǎn)業(yè)安全構(gòu)成直接且致命的威脅。想象一下，在金融領(lǐng)域，如果大模型被惡意控制，可能會錯誤地評估信用風險，導致金融機構(gòu)做出錯誤的貸款決策，引發(fā)系統(tǒng)性金融風險；在醫(yī)療領(lǐng)域，大模型若被操控，可能會給出錯誤的診斷建議，危及患者的生命安全。

以上顯然是大家不愿意看到的，這也是如今國家自上而下都在追求自主可控的根本用意。

然而，很多企業(yè)都跑偏了。

拒絕認知偏差，大模型時代更要根創(chuàng)新

由此引發(fā)另一個問題，我們該如何面對當前“千篇一律”的大模型應(yīng)用創(chuàng)新？或者說，我們該不該以“拿來主義”當做大模型的必經(jīng)之路？

答案是否定的。

減少或者是從根本上杜絕大模型的“共同基因缺陷”問題，唯一的出路是加強對大模型底層架構(gòu)的研究和創(chuàng)新，構(gòu)建自下而上的全棧創(chuàng)新能力，這樣才能避免“卡脖子”和同質(zhì)化缺陷。

遺憾的是，業(yè)內(nèi)還有不少認知上的偏差。

第一類認知偏差，不需要從頭搞創(chuàng)新，只需要在技術(shù)集成層面搞創(chuàng)新。例如基于國外開源框架（如Transformer衍生架構(gòu)）進行參數(shù)調(diào)優(yōu)、功能疊加，卻忽視了底層架構(gòu)的原創(chuàng)性突破。這種模式看似能快速實現(xiàn)商業(yè)化落地，卻如同在他人地基上蓋房子，始終受限于底層框架的設(shè)計邏輯與安全隱患。

第二類認知偏差是，“開源 = 安全”。大模型的開源與傳統(tǒng)軟件開源存在本質(zhì)區(qū)別，傳統(tǒng)軟件開源通常包含完整代碼，可通過社區(qū)協(xié)作快速驗證安全性；而多數(shù)大模型僅開源模型權(quán)重（即訓練結(jié)果），其底層架構(gòu)、訓練數(shù)據(jù)邏輯、安全防護機制仍處于黑箱狀態(tài)，要全面驗證其安全性、排查潛在后門，需投入極高的算力與技術(shù)成本，實際安全可控性遠低于傳統(tǒng)開源軟件。就算全部源代碼公開，有多少公司愿意有精力、有時間、有能力去一行行解讀？

第三類認知偏差是，自主創(chuàng)新需要大量資金支持，企業(yè)沒時間沒精力沒人才去搞這個。如果這是小公司的理由，我們還能理解。但如果這是大公司的理由，則顯得“急功近利”。在創(chuàng)新體系中，一般以20%的公司精力孵化一個新項目，不求速成，只求日拱一卒。而且有了原創(chuàng)技術(shù)的加持，只要能尋找到合適的商業(yè)路徑，就容易形成獨立的商業(yè)化閉環(huán)，完全反哺技術(shù)原創(chuàng)，讓“中國原創(chuàng)”走得更遠，形成生態(tài)。

實際上，華為鴻蒙5.0已經(jīng)給業(yè)內(nèi)做出了榜樣。盡管在過去6年中，華為鴻蒙這條道路走得很艱辛，投入百億研發(fā)費用以及每年萬人團隊，但最終鴻蒙5.0實現(xiàn)全棧自研和自主可控。央視新聞在社交媒體上為其“點贊”，強調(diào)沒有自主操作系統(tǒng)就意味著“被卡脖子”。

AI對社會的影響遠遠高于安卓，如聽任根植于國外開源底層的大模型占領(lǐng)滲透中國市場，那么如果再被迫切換“本土原創(chuàng)”大模型時，其難度將遠遠大于鴻蒙替換安卓。

所以，在當前大模型還沒有全面滲透的當下，最好的辦法是“擼起袖子加油干”。當然，世界上只有華為一家可以在國家戰(zhàn)略的指引下不計價成本“壓強式”投入獲得成功。要想在大模型領(lǐng)域走出“自主創(chuàng)新”之路，單純靠一家或者幾家創(chuàng)新公司的力量畢竟有限。只有所有立志于中國大模型技術(shù)原創(chuàng)的公司，相互支持，以“自主可控”生態(tài)圈的群體力量，就能夠一步一個腳印，做出中國特色的“原創(chuàng)大模型”，從而立足于世界。

全文觀點總結(jié)如下

大模型時代的競爭，本質(zhì)是原創(chuàng)能力與獨立體系的競爭。只有跳出集成思維，聚焦底層創(chuàng)新、構(gòu)建自主商業(yè)化邏輯，才能真正擺脫同源風險，打破卡脖子的困局，實現(xiàn)從跟跑到領(lǐng)跑的跨越，這可能就是一直堅持“根原創(chuàng)”的任度等眾多國內(nèi)大模型的意義所在。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.