網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

打敗GPT-5.2，嵌入真實工業(yè)生產(chǎn)，這個大模型什么來頭？

2026-03-09 15:44:13　來源: 量子位

北京舉報

分享至

最近，一批頂級通用大模型參加了三場特殊的“工業(yè)執(zhí)業(yè)考試”

結(jié)果出乎意料：即便是GPT-5.2 Thinking (high) 、Gemini-3.1-Pro這類叱咤風(fēng)云的選手，面對真實的工業(yè)工程語境，也并不得心應(yīng)手。

能寫詩、能編程的通用AI，為什么搞不定一條生產(chǎn)線？

答案藏在一家低調(diào)的工業(yè)AI明星公司——思謀科技，以及他們自研、專為工業(yè)打造的大模型IndustryGPT給出的解題思路里。

要知道，在這三次考試中，IndustryGPT不僅在通用榜單霸榜，更在萬條工業(yè)基準(zhǔn)和“執(zhí)業(yè)級”工程考場上，打敗了GPT-5.2 Thinking (high)與Gemini-3.1-Pro。

這場“考試”的比分本身或許沒那么重要，但它撕開了一道口子，讓人們看清了通用大模型在真實產(chǎn)業(yè)場景下的能力邊界。

當(dāng)模型真正走進(jìn)生產(chǎn)線，參與工程決策，“聰明”只是基礎(chǔ)能力，合規(guī)、嚴(yán)謹(jǐn)、可靠才是核心指標(biāo)。

這也意味著，大模型賦能實體經(jīng)濟(jì)，正在從概念驗證走向真刀實槍的驗收期。而工業(yè)，無疑是這場大考中最硬核的考場。

問題是：中國制造業(yè)，到底需要什么樣的AI？

三場考試，看清通用模型的“工業(yè)盲區(qū)”

IndustryGPT，是思謀科技發(fā)布的全球首個專注于工業(yè)場景的多模態(tài)大模型。

為了回答“制造業(yè)需要什么樣的AI”這個問題，思謀做了一件事：把市面上幾款主流大模型拉進(jìn)來，跟IndustryGPT一起考了三場試

第一場，考工業(yè)知識“廣度”

為了建立客觀可比的評測基準(zhǔn)，思謀選取權(quán)威開源中文數(shù)據(jù)集SuperGPQA中與工業(yè)相關(guān)的題目子集，對IndustryGPT與GPT-5.2 Thinking (high) 、Gemini-3.1-Pro等國際頂尖通用大模型進(jìn)行了橫向測試。

SuperGPQA是目前中文領(lǐng)域覆蓋面最廣、題目質(zhì)量最高的綜合知識評測數(shù)據(jù)集之一，其工業(yè)相關(guān)子集涵蓋了工程技術(shù)、制造工藝、材料科學(xué)等多個專業(yè)方向。

結(jié)果顯示：IndustryGPT取得同類模型中的SOTA，在工業(yè)專業(yè)知識的廣度、問答準(zhǔn)確率上，超越了GPT-5.2 Thinking (high) 、Gemini-3.1-Pro等頂尖通用模型。

這說明它在工業(yè)專業(yè)知識上構(gòu)建了核心的競爭壁壘，解決了通用大模型“工業(yè)知識淺、專業(yè)問答錯漏多”的基礎(chǔ)問題。

不過嘛，開源benchmark只是第一道門檻

SuperGPQA雖然覆蓋面廣，但工業(yè)場景的專業(yè)深度和多樣性遠(yuǎn)超標(biāo)準(zhǔn)測試集的范疇——一套通用的考題，很難考出模型在真實產(chǎn)線上的“手感”。更何況，業(yè)界目前本就缺少專門針對工業(yè)場景的評測數(shù)據(jù)集。

要想考出大模型在工業(yè)場景的真實水平，還得自己出題

于是有了第二場考試：考工業(yè)知識深度

思謀自建了一套系統(tǒng)化的工業(yè)知識基準(zhǔn)評測數(shù)據(jù)集，包括12個工業(yè)相關(guān)子領(lǐng)域，涵蓋機(jī)械、光學(xué)、電氣等核心工程學(xué)科，覆蓋3C電子、建筑、礦業(yè)、紡織等典型工業(yè)領(lǐng)域。

這套benchmark還真不是蓋的：題目總數(shù)量超萬條，超過目前所有開源工業(yè)數(shù)據(jù)集

思謀特意設(shè)置了一批高難度的“困難問題”，用于模擬真實工業(yè)環(huán)境中的復(fù)雜決策場景。

結(jié)果IndustryGPT領(lǐng)先的不是一點(diǎn)半點(diǎn)：在“困難問題”子集上，GPT-5.2 Thinking (high)和Gemini-3.1-Pro統(tǒng)統(tǒng)翻車，而IndustryGPT不僅取得SOTA，還實現(xiàn)了超過20%的相對性能提升。

如果你以為，工業(yè)AI只要在自家考卷上贏了就算數(shù)，那就太低估工業(yè)世界的“狠”了。

AI真要在工業(yè)場景里干活，就不能只會答題，還必須具備參與真實工程決策的能力

于是，思謀繼續(xù)上強(qiáng)度，組織了第三場考試——考“執(zhí)業(yè)資格”

他們自主構(gòu)建了全球首個以執(zhí)業(yè)資格難度為標(biāo)尺、以工程強(qiáng)制規(guī)范為剛性約束、以可落地工程決策能力為核心的大模型評測基準(zhǔn)，徹底跳出通用學(xué)術(shù)benchmark的局限。

好家伙，直接從知識理解測試，拉高到了工程決策能力測試

這套評測框架，對齊中美最高級別官方執(zhí)業(yè)資格考試，參照中國全國注冊工程師執(zhí)業(yè)資格考試及美國NCEES FE/PE考試框架。

數(shù)據(jù)集涵蓋電氣、機(jī)械、化工、土木等核心工程學(xué)科，問題以真實工程場景為背景，要求模型在多重約束條件下完成法規(guī)條文精準(zhǔn)匹配、多步驟數(shù)值推導(dǎo)，以及跨規(guī)范沖突情形下的優(yōu)先級判斷與風(fēng)險控制。

注：平均正確率由電氣、機(jī)械、化工、土木等學(xué)科得分取平均計算得出

對比GPT-5.2 Thinking (high) 等頂尖通用模型，IndustryGPT在兩項測試中均取得SOTA結(jié)果。

IndustryGPT不僅在法規(guī)條文的精確引用與規(guī)范一致性方面展現(xiàn)出更高的穩(wěn)定度，在跨規(guī)范沖突處理、工程假設(shè)合理性控制等關(guān)鍵指標(biāo)上也處于領(lǐng)先地位。綜合來看，在實際執(zhí)業(yè)場景中，其針對復(fù)雜工程方案的綜合推理評估與輔助決策能力更為出色。

一整個就是逼近真實執(zhí)業(yè)工程師的水平。

這三場考試指向同一個判斷：工業(yè)場景對AI的需求，和通用場景存在結(jié)構(gòu)性差異。通用模型在常識層面表現(xiàn)良好，但在規(guī)范遵從、邊界控制、復(fù)雜決策等工業(yè)剛需上，仍然稍遜一籌。

不只是考得好，是真能下產(chǎn)線

評測成績只是門檻，真正關(guān)鍵的是：模型能否嵌入生產(chǎn)系統(tǒng)，成為業(yè)務(wù)流程的一部分。

而IndustryGPT給出的答案是：通過與智能體技術(shù)的深度融合，在多個高標(biāo)準(zhǔn)場景中實現(xiàn)感知-決策-執(zhí)行的完整閉環(huán)。

SMore ViMo就是一個典型的行業(yè)模型+Agent落地形態(tài)。它依托IndustryGPT的原生Agent能力，將客戶從項目啟動到可運(yùn)行模型的落地周期，從行業(yè)平均14天壓縮至3天以內(nèi)。

工業(yè)質(zhì)檢環(huán)節(jié)中，可自動識別、歸類缺陷屬性，并通過閉環(huán)校驗修正精度，效率飆升200%

此外，IndustryGPT在更復(fù)雜的制造深水區(qū)，也跑通了消費(fèi)電子、精密工業(yè)、汽車高鐵等細(xì)分領(lǐng)域。舉兩個典型例子：

一個是軌道交通的復(fù)雜工藝制造領(lǐng)域，制造方案是保障生產(chǎn)規(guī)范與質(zhì)量追溯的核心依據(jù)，是承接設(shè)計與制造生產(chǎn)的關(guān)鍵樞紐。

傳統(tǒng)模式下，制造方案編制高度依賴資深工程師的經(jīng)驗，不僅效率低下，且易因人為疏漏影響生產(chǎn)效率與質(zhì)量。

而借助IndustryGPT，就能基于歷史制造方案和個性化需求，自動生成包含詳細(xì)操作步驟、關(guān)鍵控制點(diǎn)及工序設(shè)計的完整制造方案。

通過人機(jī)協(xié)同方式，實現(xiàn)全流程智能化設(shè)計，將工程師從繁瑣的文檔工作中解放出來，專注核心設(shè)計的制造實現(xiàn)。

效果也是立竿見影：效率提升15%以上，變更風(fēng)險顯著降低。

另一個是復(fù)雜產(chǎn)線智能管理

在一個高度復(fù)雜的制造產(chǎn)線中，產(chǎn)品型號超2.9萬種，工藝差異大、異常類型高度碎片化。傳統(tǒng)模式依賴?yán)蠁T工的經(jīng)驗判斷，異常響應(yīng)慢、處置標(biāo)準(zhǔn)不統(tǒng)一且知識無法沉淀。

在這種情況下，問題的關(guān)鍵在于如何在海量型號與歷史案例中快速匹配對應(yīng)的解決路徑，并保證處理過程符合既定SOP。

基于IndustryGPT，思謀在內(nèi)網(wǎng)環(huán)境下構(gòu)建了閉環(huán)智能流程：異常掃碼識別后自動建單，系統(tǒng)自動匹配SOP，調(diào)用歷史案例、生成診斷建議，全程只需5秒

結(jié)果也很突出：90%以上的常見異常由系統(tǒng)自主解決，核心經(jīng)驗從個人變?yōu)榻M織資產(chǎn)。

這幾類場景都說明：通用模型“能說”但不敢用，行業(yè)模型“能做”且能負(fù)責(zé)

大模型“驗收標(biāo)準(zhǔn)”正在重構(gòu)

三場考試以及落地案例背后，指向一個更核心的問題：工業(yè)場景對大模型的“驗收標(biāo)準(zhǔn)”正在發(fā)生根本性重構(gòu)

過去幾年，大模型更多是以“智能水平”被評價：參數(shù)規(guī)模、通用榜單排名、多輪對話能力、代碼生成能力……這些指標(biāo)在互聯(lián)網(wǎng)場景里成立，但在工業(yè)場景中，卻遠(yuǎn)遠(yuǎn)不夠。

工業(yè)AI還需要具備三項核心能力，這也是通用模型目前難以通過后期微調(diào)實現(xiàn)的：

第一，邊界控制能力

在工業(yè)環(huán)境中，越界往往意味著風(fēng)險。模型不僅要給出正確的結(jié)果，還要在規(guī)范約束和安全邊界內(nèi)運(yùn)行。

IndustryGPT沒有簡單照搬通用大模型常用的RLHF訓(xùn)練方式，而是進(jìn)一步引入“規(guī)范一致性獎勵模型”“計算過程獎勵模型”

模型在訓(xùn)練中不僅根據(jù)最終答案是否正確獲得反饋，更會對中間推理步驟是否符合工程標(biāo)準(zhǔn)、計算路徑是否嚴(yán)謹(jǐn)進(jìn)行細(xì)粒度評估。

這也讓模型逐步形成對安全邊界、數(shù)值精度和規(guī)范沖突處理的穩(wěn)定偏好，從而在復(fù)雜工程問題中表現(xiàn)出更高的可靠性與一致性。

第二，規(guī)范遵從能力

工業(yè)生產(chǎn)有嚴(yán)格的強(qiáng)制性規(guī)范，是必須執(zhí)行的紅線。

在這一點(diǎn)上，IndustryGPT做到了“先學(xué)規(guī)范，再學(xué)表達(dá)”。它并未沿用通用互聯(lián)網(wǎng)語料為主的訓(xùn)練范式，而是對工業(yè)知識體系進(jìn)行了結(jié)構(gòu)化重構(gòu)

通過將工程規(guī)范、國家標(biāo)準(zhǔn)、工藝文檔、設(shè)備手冊等專業(yè)內(nèi)容進(jìn)行層級化整理，然后再喂給大模型——讓模型在訓(xùn)練階段便形成了“規(guī)范優(yōu)先”的知識表達(dá)方式，其在回答問題時天然遵循工程語境。

第三，任務(wù)執(zhí)行能力

工業(yè)場景不需要紙上談兵的AI。IndustryGPT的Agent架構(gòu)使其能夠調(diào)用工具、拆解任務(wù)、執(zhí)行流程，將抽象理解能力轉(zhuǎn)化為可執(zhí)行的工程流程。

這種“認(rèn)知+執(zhí)行”一體化的架構(gòu)，使模型能夠在真實工業(yè)環(huán)境中完成多步驟任務(wù)，而不是停留在文本建議層面。

綜合來看，IndustryGPT的能力提升路徑，代表了工業(yè)大模型一個清晰的技術(shù)方向：從“通用智能”轉(zhuǎn)向“可執(zhí)業(yè)智能”

模型不再只是理解世界，而是能夠嚴(yán)格遵循工業(yè)規(guī)則，在真實的強(qiáng)約束條件下，穩(wěn)定、合規(guī)、高效地完成工程任務(wù)，實現(xiàn)從實驗室到生產(chǎn)線的跨越

隨著“AI+制造”的逐步深入落地和鋪開，這三項能力，正在成為工業(yè)客戶評估AI供應(yīng)商的新標(biāo)準(zhǔn)。

中國制造業(yè)需要什么樣的工業(yè)AI？

關(guān)于工業(yè)AI的路線之爭，行業(yè)內(nèi)的討論從未停止。目前主流的技術(shù)路線分為兩派：

一派是“通用大模型+行業(yè)微調(diào)”路線，核心邏輯是先打造強(qiáng)大的通用底座，再通過行業(yè)數(shù)據(jù)微調(diào)，適配工業(yè)場景的需求；

另一派則是“原生工業(yè)垂類大模型”路線，以思謀IndustryGPT為代表，核心邏輯是從底層訓(xùn)練范式開始，就針對工業(yè)場景的特性進(jìn)行重構(gòu)，原生適配工業(yè)的規(guī)則與需求。

兩條路線的分歧點(diǎn)不在于技術(shù)路徑本身，而在于對“驗收標(biāo)準(zhǔn)”的不同理解。

如果驗收標(biāo)準(zhǔn)是“能回答工業(yè)問題”，那么微調(diào)路線足以交卷。

但如果驗收標(biāo)準(zhǔn)是“能嵌入產(chǎn)線、能按規(guī)范干活、能對結(jié)果負(fù)責(zé)”，情況就不一樣了。

因為邊界控制、規(guī)范遵從、任務(wù)執(zhí)行這三項能力，與通用模型的訓(xùn)練范式存在根本性沖突——通用大模型的核心是“泛化理解”，而工業(yè)大模型的核心是“精準(zhǔn)執(zhí)行”，后者無法通過后期微調(diào)獲得，必須從底層訓(xùn)練范式開始重構(gòu)。

2025年，我國AI核心產(chǎn)業(yè)規(guī)模突破了1.2萬億，但和制造業(yè)的融合還卡在“技術(shù)不接地氣、場景落不深”的階段。

今年1月，工信部等八部門印發(fā)《“人工智能+制造”專項行動實施意見》，明確提出到2027年“推出1000個高水平工業(yè)智能體”——“智能體”三個字，就是對“驗收標(biāo)準(zhǔn)”的定調(diào)：要的是能執(zhí)行的AI，不是只能回答的AI。

2026年，隨著大模型進(jìn)入應(yīng)用階段，競爭正在從“參數(shù)競賽”轉(zhuǎn)向“落地驗收”

IndustryGPT對GPT-5.2 Thinking (high)等國際頂尖通用大模型那20%的領(lǐng)先幅度，真正的意義并非“誰贏了考試”，而是反映出目前主流通用模型和真實產(chǎn)業(yè)需求之間，依然存在系統(tǒng)性錯位。

這種錯位，恰恰印證了工業(yè)垂類大模型的核心價值：在AI與制造業(yè)深度融合的過程中，通用大模型是重要的技術(shù)底座，但貼合產(chǎn)業(yè)需求的原生垂類大模型，才是實現(xiàn)技術(shù)落地的核心抓手。

回到一開始的問題：中國制造業(yè)，到底需要什么樣的AI？

AI賦能實體經(jīng)濟(jì)，終局不是比誰更“聰明”，而是比誰更“落地”。對中國萬千制造企業(yè)和無數(shù)復(fù)雜場景而言，AI的價值從來不是“炫技”，而是“賦能”。

思謀IndustryGPT的探索，是AI產(chǎn)業(yè)落地大幕的開始。整個行業(yè)的答案，還藏在更多躬身入局的實踐中。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.