国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超越chatgpt和Excel方案!中國團隊Univer的電子表格SOTA達到68.86%

0
分享至

在最近一輪的SpreadsheetBench評測中,UniverAgent 取得了68.86% 的 Pass Rate,位列排行榜第一,超越了包括 ChatGPT Agent 和 Excel Copilot 在內(nèi)的主流方案。

SpreadsheetBench 是當前電子表格自動化領域最具權威性的公開基準之一,微軟與 OpenAI 均曾在官方文章中引用其測試數(shù)據(jù),微軟現(xiàn)任 CEO 薩提亞·納德拉(Satya Nadella)也曾在社交媒體上發(fā)表其評測結果。







這是該榜單出現(xiàn)的第一支中國團隊。與榜上多數(shù)仍依賴 Excel 環(huán)境執(zhí)行任務不同,UniverAgent 基于自研的 Univer SDK,實現(xiàn)了全程脫離 Excel 的表格計算與推理能力,可視為一次從底層重構電子表格智能的技術躍遷。這一成績的取得,并非單純依賴于更強的基座模型,而是源于我們對“電子表格 Agent”這一命題的系統(tǒng)性重構:從“生成腳本操作文件”的輔助工具,轉向“基于在線環(huán)境、具備混合執(zhí)行能力的自主智能體”。

本文將從技術視角拆解 UniverAgent 在 SpreadsheetBench 上的表現(xiàn),探討它是如何在理解(Understanding)、準確性(Accuracy)和定位(Positioning)三個維度上建立優(yōu)勢的。



一、SpreadsheetBench:真實業(yè)務場景的試金石

許多 AI Demo 看起來很美,但在真實業(yè)務中往往“一碰就碎”。SpreadsheetBench 的價值在于它提供了一個基于真實任務的嚴謹參考框架。

它包含912 個來源于真實場景的任務,涵蓋了從數(shù)據(jù)清洗、復雜計算到格式調(diào)整的全流程。與簡單的“玩具數(shù)據(jù)集”不同,SpreadsheetBench 重點考察三個互相關聯(lián)的維度:

1. UNDERSTANDING(理解能力):能否準確理解自然語言指令中的業(yè)務意圖,并正確識別相關的數(shù)據(jù)區(qū)域(而非誤用無關區(qū)域)。

2. ACCURACY(結果準確性):數(shù)值計算是否精確,公式邏輯是否正確,數(shù)據(jù)類型(如日期、貨幣)是否符合規(guī)范。

3. POSITIONING(定位準確性):結果是否寫入了指定的工作表和單元格,且不破壞原有的表格結構。

這三個維度彼此牽制、很難被單一技術路徑同時兼顧:單純的 Python 腳本容易算對數(shù)值(Accuracy),但很難處理復雜的格式和位置約束(Positioning);單純的 Excel 公式能處理位置,但難以應對復雜的邏輯推理(Understanding)。

UniverAgent 的高分,正是因為它通過系統(tǒng)設計,在這三個維度上取得了平衡。

二、核心差異:系統(tǒng)工程勝于模型參數(shù)

在 SpreadsheetBench 榜單上,我們可以看到多種技術路線。UniverAgent 的核心差異在于:我們沒有把電子表格簡單視為一個 CSV 文件或一個 API 對象,而是圍繞其結構化、富交互、在線化的特性,設計了一整套 Agent 架構。

這套架構包含三個關鍵支柱:

1. 表格友好的上下文工程:通過 `SpreadsheetOverview` 和 `GetRangeData`,構建高信噪比的“地圖”與“放大鏡”。

2. CodeAct + Planning 執(zhí)行策略:引入多輪思考循環(huán)與自適應緩存,替代脆弱的“一次性腳本”。

3. 在線混合執(zhí)行架構:Python 負責重數(shù)據(jù)分析,JavaScript (Univer SDK) 負責精細表格操作,兩者在在線環(huán)境中無縫協(xié)作。

三、上下文工程:構建高信噪比的“地圖”與“放大鏡”

電子表格任務的一大挑戰(zhàn)是上下文(Context)爆炸。一個幾千行的表格直接轉為文本會瞬間耗盡 Token 預算,且丟失關鍵的結構信息(如合并單元格、公式引用)。

UniverAgent 設計了兩層上下文抽象來解決這個問題。

1. SpreadsheetOverview:全局“地圖”與信息壓縮

`SpreadsheetOverview` 的作用是讓 Agent 在消耗極少 Token 的前提下,看清整個工作簿的結構。它不僅僅是數(shù)據(jù)的截斷展示,更包含了一系列智能壓縮策略。

以一個簡單的銷售數(shù)據(jù)表為例,原始電子表格中的內(nèi)容大致如下(只展示關鍵列):



以下是一個典型的 Overview 輸出示例,可以看到它如何將一張包含數(shù)據(jù)的表格“濃縮”為結構化視圖:

# Spreadsheet Context
Spreadsheet Overview
- Total Sheets: 1
- Active Sheet: 'Sales'
## Sheet: 'Sales'
- Sheet Used Range: A1:D35 (35 rows × 4 columns)
- Tables Found: 2
- Formulas Found: 2
### Table 1: A1:D25
|A1,Product|B1,Category|C1,Quantity|D1,Price|
|A2,Laptop|B2,Electronics|C2,5|D2,1200.00|
...(中間行被省略)
|A25,Monitor|B25,Electronics|C25,2|D25,350.00|
### Formulas (0 formula group)
- None
### Table 2: B32:D35
|B32,Category|C32,Total Quantity|D32,Total Sales|
|B33,Electronics|C33,40|D33,48000.00|
|B34,Furniture|C34,10|D34,2000.00|
|B35,Office Supplies|C35,5|D35,1000.00|
### Formulas (2 formula groups)
- C33:C35 ← C33: =SUMIF($B$2:$B$25,B33,$C$2:$C$25)
- D33:D35 ← D33: =SUMPRODUCT(($B$2:$B$25=B33)$C$2:$C$25$D$2:$D$25)

關鍵技術點在于:

●結構識別:自動識別 Table 邊界(如 A1:D25),而非盲目讀取整張表;

●層次化視圖: Spreadsheet -> Sheet -> Table / Formula, 層層遞進,既展示了結構,又避免了信息過載;

●公式組聚合:如上例所示,`C33:C35` 的公式邏輯完全一致,系統(tǒng)將其聚合為一條描述 `C33:C35 ← C33: ...`。這種處理方式能將上百行的冗余信息壓縮為一行,Token 占用減少 90% 以上。

在實測中,即便是7000 行的大型工作簿,其 Overview 上下文體積通常也能控制在0.5KB 以內(nèi)。這為 Agent 提供了清晰的全局視野,顯著提升了UNDERSTANDING指標。

2. GetRangeData:結構化的“放大鏡”

當 Agent 需要深入處理特定區(qū)域時,`GetRangeData` 提供了結構化的局部視圖。它返回的不僅僅是二維數(shù)組,而是一個包含豐富元數(shù)據(jù)的對象:

============================================================
Range Data: A1:F32
============================================================
Metadata:
? Shape: 32 rows × 6 columns
? Formula groups: 3 (74 total cells)
? Styled cells: 15
Data Preview: (showing first 10 rows)
A B C D E F
1 SN DATE ... TOTAL ... ...
2 001 1/1 ... 1200 ... ...
...
Formula Groups: (top 15 of 3)
? D2:D74 ← D2: =IFERROR(INDEX(...))
? E2:E74 ← E2: =VLOOKUP(...)
Style Definitions: (top 5 of 5)
? 01gvvu6: fs:11|bl:1|bg:#FFFF00(3 cells)
============================================================

這個 `RangeData` 對象包含三個維度的信息:

●Values:直接映射為 `pandas.DataFrame`,便于 Python 進行向量化計算。

●Formula Groups:延續(xù)聚合策略,準確描述區(qū)域內(nèi)的計算邏輯。

●Styles:將樣式定義(如 `bg:#FFFF00`)與引用解耦,使 Agent 能感知顏色、字體等視覺線索(這在處理“標紅異常值”類任務時至關重要)。

這種分層設計,確保了 Agent 既能“看全”也能“看細”,為后續(xù)的精準操作打下基礎。

四、執(zhí)行策略:從“一次性腳本”到 CodeAct 循環(huán)

面對 SpreadsheetBench 中的復雜任務,試圖生成一段完美的“一次性腳本”往往是徒勞的。UniverAgent 采用了CodeAct (Code as Action)架構,將執(zhí)行過程拆解為多輪交互循環(huán):

Thought(思考)→ Code(編碼/工具調(diào)用)→ Observation(觀察結果)

1. 動態(tài)規(guī)劃與自我糾錯

在每一輪循環(huán)中,Agent 都會根據(jù) `Observation` 修正自己的認知。

● 如果發(fā)現(xiàn)數(shù)據(jù)格式與預期不符,它會調(diào)整清洗邏輯;

● 如果寫入結果后發(fā)現(xiàn)位置偏移,它會讀取結果區(qū)域并重新調(diào)整坐標。

這種“小步快跑、實時反饋”的機制,極大地提升了任務的ACCURACY和POSITIONING表現(xiàn)。

2. 自適應消息緩存(Adaptive Message Cache)

多輪交互雖然穩(wěn)健,但會帶來上下文過長的問題。UniverAgent 引入了自適應消息緩存機制,充分利用 LLM 的 Prompt Caching 功能。系統(tǒng)會根據(jù)對話輪數(shù)自動插入緩存斷點,使得歷史上下文(包括龐大的表格結構信息)無需重復計算。這不僅降低了推理成本,更顯著提升了長鏈路任務的響應速度。

五、架構優(yōu)勢:在線環(huán)境與混合執(zhí)行

UniverAgent 的另一大護城河,在于其運行環(huán)境。與基于 `openpyxl / VBA` 等依賴 Excel App 操作本地文件的離線方案不同,UniverAgent 直接運行在Univer 在線表格引擎之上。

1. Python + JavaScript 混合雙打

在處理復雜任務時,單一語言往往力不從心。UniverAgent 創(chuàng)造性地采用了混合執(zhí)行模式:

●Python (pandas/numpy):負責“重”邏輯。例如多表合并、透視分析、復雜統(tǒng)計。Python 在數(shù)據(jù)處理上的生態(tài)優(yōu)勢在這里得到了最大化釋放。

●JavaScript (Univer SDK):負責“細”操作。例如設置條件格式、調(diào)整列寬、插入圖表、精確寫入單元格。這些是 DOM 無關的 Headless 環(huán)境,保證了渲染的一致性。

示例場景:

下面我們用一個簡單例子展示混合執(zhí)行模式的優(yōu)勢:

任務:從某個銷售明細區(qū)域中,按類別匯總銷售額,并把結果寫回到當前表格的指定區(qū)域。

importpandasaspd
# 1. 通過工具獲取數(shù)據(jù)
range_data=get_range_data("A1:C100")# 假設列為: Category, Item, Amount
df=range_data.to_dataframe()
# 2. Python 側進行數(shù)據(jù)分析
totals=df.groupby("Category")["Amount"].sum()
categories=list(totals.index)
values=list(totals.values)
# 3. JavaScript 側寫入結果
js_code=f"""
() => {{
const workbook = univerAPI.getActiveWorkbook();
const sheet = workbook.getActiveSheet();
const categories = {categories!r};
const values = {values!r};
// 從第 0 行第 5 列開始寫入結果(也就是 F1 開始)
for (let i = 0; i < categories.length; i++) {{
const row = i; // 0-based 行號
const colCategory = 5;
const colAmount = 6;
sheet.getRange(row, colCategory).setValue(String(categories[i]));
sheet.getRange(row, colAmount).setValue(Number(values[i]));
// 金額列設置為貨幣格式
sheet.getRange(row, colAmount).setNumberFormat("$#,##0.00");
}}
return {{
success: true,
writtenRows: categories.length
}};
}}
"""
result=eval_js(js_code)
print(result)# => {'success': True, 'writtenRows': N}

這種分工使得 UniverAgent 既擁有數(shù)據(jù)分析的深度,又具備原生表格操作的精度。

2. 在線協(xié)作的天然優(yōu)勢

基于在線架構,UniverAgent 的每一次操作都是對“活”的表格進行的。這意味著:

●狀態(tài)自然保持:無需反復讀寫文件,中間狀態(tài)實時駐留在內(nèi)存中。

●所見即所得:Agent 的操作可以實時同步給人類用戶,便于人機協(xié)作與監(jiān)督。

●版本控制:利用在線表格的版本回滾能力,Agent 的誤操作可以被輕松撤銷,大大降低了實驗成本。

六、結語:邁向自主電子表格工程

SpreadsheetBench 的 68.86% 只是一個數(shù)字,它背后反映的是電子表格自動化從“玩具”走向“工具”的技術跨越。

UniverAgent 的實踐證明,通過極致的上下文工程、穩(wěn)健的 CodeAct 循環(huán)以及原生在線的混合架構,AI 完全有能力勝任復雜的電子表格工作。我們不再是在生成一段輔助腳本,而是在構建一個能夠理解業(yè)務、精準執(zhí)行、自我糾錯的電子表格工程師。

未來,隨著模型能力的提升和工具鏈的完善,我們期待看到更多企業(yè)級場景下的自動化落地,讓數(shù)據(jù)處理真正回歸價值本身。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
霍啟剛郭晶晶帶娃買蜜雪冰城!奶茶先給爺爺喝,這家風才是真豪門

霍啟剛郭晶晶帶娃買蜜雪冰城!奶茶先給爺爺喝,這家風才是真豪門

大眼瞄世界
2025-12-26 23:54:38
首批3個號牌落戶北汽極狐,北京L3級自動駕駛獲準合法上路

首批3個號牌落戶北汽極狐,北京L3級自動駕駛獲準合法上路

北京商報
2025-12-23 20:54:11
本田圭佑:日本隊整體水平在提升,世界杯奪冠可能性也在增加

本田圭佑:日本隊整體水平在提升,世界杯奪冠可能性也在增加

懂球帝
2025-12-26 16:42:32
項立剛宣布休戰(zhàn):支持羅永浩大部分是失敗者,我再杠他真沒意思!

項立剛宣布休戰(zhàn):支持羅永浩大部分是失敗者,我再杠他真沒意思!

影像溫度
2025-12-26 13:04:41
為啥日本甚至期待跟中國一戰(zhàn)?因為日本設想的戰(zhàn)場在中國或朝鮮

為啥日本甚至期待跟中國一戰(zhàn)?因為日本設想的戰(zhàn)場在中國或朝鮮

詩意世界
2025-12-12 22:58:19
中國軍隊回撤時越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

中國軍隊回撤時越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

古書記史
2025-12-22 19:50:50
徐松子悼念何晴!無意間透露許何早早搬出許亞軍家原因,令人淚目

徐松子悼念何晴!無意間透露許何早早搬出許亞軍家原因,令人淚目

黃謀仕
2025-12-26 22:32:11
醫(yī)生含淚苦勸:天氣漸冷,糖尿病患者最怕這6件事,千萬別大意!

醫(yī)生含淚苦勸:天氣漸冷,糖尿病患者最怕這6件事,千萬別大意!

健康之光
2025-12-26 16:00:06
俄外交部發(fā)言人:建議日本修建“日本軍國主義受害者紀念堂”

俄外交部發(fā)言人:建議日本修建“日本軍國主義受害者紀念堂”

環(huán)球網(wǎng)資訊
2025-12-25 23:26:11
16GB+1TB!新機官宣:12月27日,正式開售!

16GB+1TB!新機官宣:12月27日,正式開售!

科技堡壘
2025-12-26 11:49:26
美記:因已擁有楊瀚森和克林根,開拓者對交易羅威持開放態(tài)度

美記:因已擁有楊瀚森和克林根,開拓者對交易羅威持開放態(tài)度

懂球帝
2025-12-27 00:55:13
張震岳硬核回懟朱孝天

張震岳硬核回懟朱孝天

究竟誰主沉浮
2025-12-25 20:41:29
福原愛自曝,根本不想嫁給江宏杰,與他相處像姐妹,難怪她會出軌

福原愛自曝,根本不想嫁給江宏杰,與他相處像姐妹,難怪她會出軌

凡知
2025-12-24 18:35:06
足壇頂流瓜!米蘭鋒線出軌,有對象還戀上好萊塢女星

足壇頂流瓜!米蘭鋒線出軌,有對象還戀上好萊塢女星

聽我說球
2025-12-26 08:19:22
不查不知道,
一查才發(fā)現(xiàn),

不查不知道, 一查才發(fā)現(xiàn),

小光侃娛樂
2025-12-25 22:20:03
20歲新星爆火引關注:阿森納安排球探造訪AC米蘭,阿萊格里不放人

20歲新星爆火引關注:阿森納安排球探造訪AC米蘭,阿萊格里不放人

里芃芃體育
2025-12-27 00:10:09
朱孝天深夜道歉:持續(xù)遭受網(wǎng)暴導致我情緒失控

朱孝天深夜道歉:持續(xù)遭受網(wǎng)暴導致我情緒失控

看看新聞Knews
2025-12-25 23:57:29
上海多區(qū)發(fā)布寒潮藍色預警!48小時內(nèi)降溫8-10℃!網(wǎng)友:入冬在明年?

上海多區(qū)發(fā)布寒潮藍色預警!48小時內(nèi)降溫8-10℃!網(wǎng)友:入冬在明年?

上觀新聞
2025-12-24 14:52:08
白銀現(xiàn)貨大漲創(chuàng)新高,LOF基金卻連吃兩跌停,網(wǎng)友喊話:別再傻傻往里沖了

白銀現(xiàn)貨大漲創(chuàng)新高,LOF基金卻連吃兩跌停,網(wǎng)友喊話:別再傻傻往里沖了

紅星資本局
2025-12-26 21:35:15
海歸光環(huán)徹底消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

海歸光環(huán)徹底消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

夢史
2025-12-23 10:18:20
2025-12-27 05:03:00
互聯(lián)網(wǎng)大觀
互聯(lián)網(wǎng)大觀
一切皆如我所料
298文章數(shù) 78975關注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

本地
房產(chǎn)
手機
藝術
旅游

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

房產(chǎn)要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

手機要聞

vivo藍河:以開源和賽事,撬動AGI時代底層技術生態(tài)

藝術要聞

你絕對想不到,佛陀微笑隱藏的秘密竟然是!

旅游要聞

椰林映火箭!文昌東郊藏著海南最動人的山海答卷

無障礙瀏覽 進入關懷版