国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Gemini 3強(qiáng)的可怕,但真讓他干活兒他像實(shí)習(xí)生一樣不靠譜

0
分享至



最近谷歌正式發(fā)布 Gemini 3 后,其基準(zhǔn)測(cè)試成績(jī)斷檔級(jí)領(lǐng)先,大家也是各種前端 vibe coding 玩得不亦樂(lè)乎。

但知危比較在意的兩個(gè)點(diǎn)是,一方面谷歌宣布 Gemini 3 是世界上最好的多模態(tài)模型,也強(qiáng)調(diào) Gemini 3 對(duì)用戶意圖的理解,“ 無(wú)需過(guò)多提示就能獲得所需信息 ”,這就讓 Gemini 3 的 ToC 屬性變得很強(qiáng)。

另一方面,Gemini 3 在編程能力的基準(zhǔn)測(cè)試上并沒(méi)有實(shí)現(xiàn)對(duì)其它模型的斷檔級(jí)領(lǐng)先( 甚至這兩天內(nèi) OpenAI 就拿出了 GPT-5.1 Codex Max 來(lái)狙擊 Gemini 3 ),谷歌也沒(méi)有強(qiáng)調(diào) Gemini 3 在幻覺(jué)、指令遵循等方面的優(yōu)勢(shì),但這些維度其實(shí)才是企業(yè)級(jí)場(chǎng)景最關(guān)心的,否則你在用 AI 編程的時(shí)候,不管模型多么博學(xué)多才,總會(huì)沒(méi)那么放心,就怕改 Bug、修漏洞比手寫代碼還辛苦,所以 Gemini 3 的 ToB 屬性是否夠強(qiáng)還有待進(jìn)一步考察。

為了深度感受 Gemini 3 的 ToC 和 ToB 屬性,在本次測(cè)評(píng)中,知危著重體驗(yàn)Gemini 3 的多模態(tài)理解和編程能力,至于科研能力,本次評(píng)測(cè)沒(méi)有涉及。

具體而言,在多模態(tài)理解能力方面,知危主要是讓 Gemini 3 理解視頻,包括電視劇、體育比賽、軟件操作等場(chǎng)景的視頻,看 Gemini 3 能理解到什么程度,幻覺(jué)多不多,是否夠?qū)I(yè)。此外,看到 Gemini 3 在 ARC-AGI-2 上面翻倍的亮眼成績(jī),知危也忍不住在相同場(chǎng)景中給 Gemini 3 再上上難度。

編程能力方面,知?;谶^(guò)去的測(cè)評(píng)經(jīng)驗(yàn),會(huì)直接拿一些需求多且雜的場(chǎng)景讓 Gemini 3 一次做出來(lái),如果不成功或者錯(cuò)誤太大,不會(huì)給太多挽尊的機(jī)會(huì)。這些場(chǎng)景包括一次寫完 Excel、看 UI 截圖寫 3D 引擎、看視頻寫 3D 引擎等。知危也會(huì)在不同的平臺(tái)上都測(cè)試類似場(chǎng)景,包括網(wǎng)頁(yè)版 Gemini、Cursor 以及谷歌自己新推出的編程 IDE Antigravity。

好了,我們?cè)挷欢嗾f(shuō),測(cè)評(píng)開(kāi)始!

多模態(tài)理解能力測(cè)評(píng)

其實(shí),目前很少有 AI 模型能直接分析視頻的,國(guó)內(nèi)只有通義千問(wèn)提供這個(gè)功能。

我們拿《 甄嬛傳 》中最具張力的一場(chǎng)戲,也就是 “ 滴血驗(yàn)親 ” 來(lái)測(cè)試一下Gemini 3( 在網(wǎng)頁(yè)版 Gemini 中調(diào)用 Gemini 3 Pro,也就是思考模式 )看不看得懂。因?yàn)榫W(wǎng)頁(yè)版上傳視頻有 100M 的限制,所以將視頻分成了好幾段輸入。

在第一段視頻中,皇后先向皇帝提出了 “ 滴血驗(yàn)親 ” 的狠招,隨后呈現(xiàn)甄嬛等人的反應(yīng)。



Gemini 3 的表現(xiàn)令人驚訝,幾乎無(wú)任何錯(cuò)誤,對(duì)各個(gè)人物的動(dòng)作、心思、表情,以及更宏觀的派系解析和劇情背景,都做出了非常準(zhǔn)確的解釋。







當(dāng)進(jìn)一步提示 Gemini 3 做更細(xì)致的逐幀逐秒分析時(shí),它也是不負(fù)眾望。



整整一分半鐘的視頻,真的按照幾秒一個(gè)單位來(lái)分析。



臺(tái)詞和潛臺(tái)詞都很精準(zhǔn),但最能展示多模態(tài)能力的,是對(duì)微表情的捕捉。比如皇后引導(dǎo)皇帝實(shí)施滴血驗(yàn)親時(shí),Gemini 3 描述皇后的表情動(dòng)作為 “ 身體微微前傾,語(yǔ)重心長(zhǎng),眉頭微蹙,眼神看似誠(chéng)懇,實(shí)則緊盯著皇帝的反應(yīng) ”,大家可以看看對(duì)不對(duì)。



再看看以下幾個(gè)精彩瞬間,動(dòng)作和表情也是描述的很到位,雖然 “ 嘴唇微張 ” 等一些細(xì)節(jié)是 Gemini 3 自己加戲和夸大,“ 眼神游移 ” 應(yīng)該要更后面才出現(xiàn),這里更多是 “ 純粹的恐懼 ”。









只是看到分析的最后一句話,知危才意識(shí)到,Gemini 3 分明知道后面的劇情進(jìn)展,畢竟 Gemini 3 的訓(xùn)練數(shù)據(jù)已經(jīng)包含了《 甄嬛傳 》的各種視頻、文本資料,能分析到這個(gè)程度或許并不令人意外。



而且,臺(tái)詞語(yǔ)音其實(shí)是很好的對(duì)齊模態(tài),臺(tái)詞能提供精準(zhǔn)的語(yǔ)義提示,并和視頻時(shí)間線做對(duì)齊,假設(shè)已經(jīng)有大量文本語(yǔ)料給《 甄嬛傳 》做了逐幀分析,那 Gemini 3 可能很大程度上不是基于視頻來(lái)理解的。

所以,若是分析無(wú)聲音的同樣一段視頻,效果又如何呢?結(jié)果,Gemini 3 還是能認(rèn)出這是《 甄嬛傳 》,以及大部分的人物,就是出現(xiàn)了非常大的錯(cuò)誤,把甄嬛認(rèn)成了華妃。



也因?yàn)檫@個(gè)錯(cuò)誤導(dǎo)致對(duì)劇情的推測(cè)也產(chǎn)生了幻覺(jué)。



從這個(gè)結(jié)果來(lái)看,或許目前 AI 的多模態(tài)理解對(duì)文字的依賴還是比較大。

最后,因?yàn)榻裉?Nano Banana Pro 剛好上線,知危也在對(duì)話的末尾讓Gemini畫一幅漫畫來(lái)呈現(xiàn)劇情,結(jié)果還是很驚艷的( 可能 Nano Banana Pro 太火,谷歌自己服務(wù)器撐不住了,沒(méi)實(shí)際生成圖像,最后是用 Lovart 的 Nano Banana Pro 畫出來(lái)的 )。



這里還有一個(gè)非常離譜的地方,Nano Banana Pro 生成的這張漫畫圖,右下角甚至還有 “ 騰訊動(dòng)漫 ” 的水印。。。

也不知道谷歌拿騰訊動(dòng)漫練 AI 有沒(méi)有合法買數(shù)據(jù)授權(quán),如果沒(méi)有的話歡迎騰訊聯(lián)系本編輯部搜集證據(jù),索賠之后記得分我們點(diǎn)

為進(jìn)一步避免模型對(duì)訓(xùn)練數(shù)據(jù)的依賴,基于 Gemini 3 的知識(shí)截止日期是 2025 年 1 月,知危決定用 Gemini 3 來(lái)分析 2024-2025 賽季 NBA 總決賽雷霆 vs 步行者第一場(chǎng)的最后兩分鐘( 比賽時(shí)間 )的視頻片段( 這場(chǎng)比賽實(shí)際是在 2025 年 6 月份舉行的,晚于 Gemini 3 的知識(shí)截止日期 )。



相比電視劇,理解體育賽事有著不同的復(fù)雜度,雖然不需要關(guān)注微表情,但運(yùn)動(dòng)員動(dòng)作大,且和籃球、其他運(yùn)動(dòng)員有物理交互,更有快速的空間移動(dòng)和頻繁的視覺(jué)遮擋,相關(guān)訓(xùn)練語(yǔ)料也更少,難度會(huì)更大。

在第一次的簡(jiǎn)單分析中,Gemini 3 的回答表明了它認(rèn)為這場(chǎng)比賽不存在,它甚至認(rèn)為這是 NBA 2K 游戲的模擬畫面。當(dāng)然,它準(zhǔn)確地認(rèn)出了這是 NBA 雷霆 vs 步行者的總決賽,以及一開(kāi)始的賽況。



在接下來(lái)的關(guān)鍵鏡頭分析中,Gemini 3 能準(zhǔn)確描述步行者球員的 “ 橫撤步 ” 運(yùn)球動(dòng)作,要知道當(dāng)時(shí)的實(shí)況解說(shuō)員并沒(méi)有說(shuō)出這個(gè) “ 橫撤步 ” 術(shù)語(yǔ),只是 Gemini 3 把球員身份認(rèn)錯(cuò)了,應(yīng)該是 2 號(hào)的內(nèi)姆哈德而不是 23 號(hào)的內(nèi)史密斯。

之后對(duì)第二回合、第三回合攻防的分析,Gemini 3 的描述都是準(zhǔn)確無(wú)誤的,除了內(nèi)史密斯的 “ 猶豫 ” 其實(shí)指的是在 “ 上籃 ” 和 “ 投籃 ” 之間的猶豫,而不是上籃之前要不要減速的猶豫。



接下來(lái),再進(jìn)行一次更細(xì)節(jié)的逐幀分析。



第一回合中內(nèi)姆哈德的單打動(dòng)作很精彩,所以值得再分析一次。

Gemini 3 雖然還是沒(méi)改正對(duì)身份的錯(cuò)誤認(rèn)識(shí),但對(duì)動(dòng)作的分析非常專業(yè),它把剛才的 “ 橫撤步 ” 改為更精準(zhǔn)的 “ 向右后方撤步 ”,并且球員在做撤步前,先做了向左側(cè)突破然后變向的連續(xù)假動(dòng)作,這些描述并不是 Gemini 3 對(duì)實(shí)況解說(shuō)的鸚鵡學(xué)舌,而是自主做出來(lái)的分析( 這里對(duì)左右方位的定義可能和我們直觀理解上相反,但還是可以解釋通的 )。





在第四回合雷霆的 2 號(hào)球員亞歷山大單打強(qiáng)攻拿回兩分,并把比分重新拉大到 105:110 后,到第五回合,對(duì)雷霆的 9 號(hào)球員卡魯索的防守策略分析中,Gemini 3 出現(xiàn)了嚴(yán)重幻覺(jué)。

卡魯索是在內(nèi)姆哈德運(yùn)球時(shí)被雷霆球員拍掉球后立馬上前搶球,并沒(méi)有出現(xiàn) Gemini 3 所言的 “ 雙腳站定,雙手護(hù)胸 ” 的動(dòng)作,這時(shí)裁判哨響,但在該片段內(nèi),并沒(méi)有給出裁判結(jié)果,Gemini 3 則立馬判定是內(nèi)姆哈德進(jìn)攻犯規(guī)。





為了再次檢驗(yàn) Gemini 3 對(duì)實(shí)況解說(shuō)語(yǔ)音的依賴程度,知危也上傳了無(wú)聲音版本的同一片段給 Gemini 3 分析。

這一次,Gemini 3 的分析出現(xiàn)了很明顯的錯(cuò)誤或模糊不清的情況,比如( 00:16-00:55 )這一段,Gemini 3 描述 “ 視頻出現(xiàn)剪輯跳躍 ”,但實(shí)際上在這段期間,雷霆和步行者先后進(jìn)行了一次進(jìn)攻未得分,最后雷霆的亞歷山大憑借單打強(qiáng)攻得到兩分。

并且( 00:56-01:08 )時(shí)間段內(nèi),被撞倒在地的球員應(yīng)該是 2 號(hào)球員內(nèi)姆哈德,而不是 0 號(hào)球員哈利伯頓。



但總體來(lái)看,Gemini 3 達(dá)到的準(zhǔn)確率還是令人感到意外的,大部分情況下都能分析出是哪位球員執(zhí)行了什么動(dòng)作,以及對(duì)比分或比賽的貢獻(xiàn)。



知危接下來(lái)還將后續(xù)比賽片段( 一直到步行者的 0 號(hào)球員哈利伯頓在最后時(shí)刻三分絕殺雷霆 )在同一個(gè)對(duì)話中傳遞給了 Gemini 3 繼續(xù)分析,Gemini 3 結(jié)合實(shí)況解說(shuō)語(yǔ)音還是能保持基本準(zhǔn)確的水平,對(duì)步行者的 43 號(hào)球員西亞卡姆的高光時(shí)刻的分析很到位,并盛贊西亞卡姆給出了 MVP 級(jí)別的表現(xiàn)。











總體而言,Gemini 3 對(duì)體育視頻的分析掌握程度還是不如對(duì)電視劇的分析。雖然能夠基于實(shí)況解說(shuō)的提示和視覺(jué)線索,給出更精細(xì)的描述和適當(dāng)?shù)暮暧^分析,但幻覺(jué)率過(guò)于高,超出了實(shí)用限制。并且,在該場(chǎng)景也是非常依賴解說(shuō)語(yǔ)音的,而不是原生地對(duì)視覺(jué)線索有足夠精細(xì)的理解。

最后也是用 Nano Banana Pro 畫一頁(yè)漫畫來(lái)呈現(xiàn)內(nèi)姆哈德后撤步三分的高光時(shí)刻。這一次畫面精細(xì)度和劇情還原度也是很高,但內(nèi)姆哈德相對(duì)其他球員以及在球場(chǎng)的空間站位呈現(xiàn)的不是很準(zhǔn)確,后撤步則像是在沖浪,可能在空間智能或透視作圖方面還不是很擅長(zhǎng)。



最后一個(gè)測(cè)試場(chǎng)景,是軟件操作視頻分析。

推特上有一個(gè)帖子比較火,Pietro Schirano 展示了如何用一句話讓 Gemini 3 寫一個(gè)功能完善的 3D 樂(lè)高引擎原型。





知危將這個(gè)視頻傳遞給 Gemini 3,令其分析這個(gè)引擎的 UI 組成和功能。

Gemini 3 的分析結(jié)果很精細(xì),甚至能精準(zhǔn)到視頻第 19 秒展現(xiàn)了重新上色功能,整體基本完全準(zhǔn)確。



這個(gè)編碼案例其實(shí)很多網(wǎng)友并不買賬,他們自己用相同提示詞寫的 3D 樂(lè)高引擎完全不是那么回事。



所以,知危也順便將分析結(jié)果提煉成提示詞,進(jìn)入下一個(gè)測(cè)評(píng),也就是編程能力測(cè)

評(píng)。

編程能力測(cè)評(píng)

提示詞( 基于視頻分析原文 ):

基于Three.js、html技術(shù),構(gòu)建一款名為 "BRICK BUILDER" 的3D樂(lè)高積木構(gòu)建軟件。

采用經(jīng)典且直觀的 "三段式" (左-中-右) 布局,配合深色模式 (Dark Mode) 界面,旨在減少視覺(jué)疲勞并突出彩色的積木模型。

以下是對(duì)該軟件UI構(gòu)成和核心功能的詳細(xì)分析:

1,頂部全局導(dǎo)航欄 (Top Toolbar)

這是軟件的控制中心,主要負(fù)責(zé)工具切換和項(xiàng)目管理。

基礎(chǔ)工具 (左側(cè)):

Select (選擇箭頭): 用于選中場(chǎng)景中的積木。

Add (加號(hào)): 默認(rèn)模式,用于放置新積木。

Paint (油漆桶): 用于給已放置的積木重新上色(視頻 00:19 處展示了此功能)。

Delete(橡皮擦):用于刪除已有積木塊。

歷史操作: 包含 撤銷 (Undo) 和 重做 (Redo) 箭頭。

項(xiàng)目管理 (右側(cè)):

Clear: 清空畫布。

New Project: 新建項(xiàng)目。

Export PNG: 將當(dāng)前模型截圖導(dǎo)出為圖片。

Save Project: 保存當(dāng)前進(jìn)度。

2,左側(cè)資源庫(kù)面板 (Left Sidebar - Library)

這里是用戶的“零件箱”,用于尋找和選擇積木部件。

搜索欄 (Search): 允許用戶通過(guò)名稱快速查找特定積木。

分類標(biāo)簽頁(yè) (Tabs): 將積木部件分為 Basic (基礎(chǔ)磚), Plates (板件), Slopes (斜坡磚), Projects 等類別,方便篩選。

縮略圖列表: 視覺(jué)化展示積木的形狀(如 1x1, 1x2, 2x4 磚塊),點(diǎn)擊即可選中作為當(dāng)前筆刷。

3,中央3D工作區(qū) (Center Viewport)

這是核心交互區(qū)域,用戶在此進(jìn)行搭建。

3D 網(wǎng)格底板 (Grid Baseplate): 提供空間參考,幫助用戶對(duì)齊積木。

智能吸附與預(yù)覽 (Smart Snapping & Ghost Preview): 當(dāng)鼠標(biāo)懸停在網(wǎng)格或已有積木上時(shí),會(huì)顯示半透明的“幽靈磚”預(yù)覽(紅色半透明),告知用戶積木即將落下的位置。積木會(huì)自動(dòng)吸附到網(wǎng)格點(diǎn)或其他積木的表面。

交互反饋: 放置積木時(shí)有輕微的動(dòng)畫效果。

4,右側(cè)屬性與設(shè)置面板 (Right Sidebar)

該區(qū)域用于控制外觀、視角和選中物體的屬性。

視角控制 (View Cube/Buttons): 位于面板左上角的小圖標(biāo),允許用戶一鍵切換視圖:

3D: 自由透視視角。

TOP / FRONT / SIDE: 快速切換到頂視圖、正視圖或側(cè)視圖(視頻 00:14-00:17 展示了此功能)。

顏色調(diào)色板 (Colors): 提供預(yù)設(shè)的樂(lè)高標(biāo)準(zhǔn)色(紅、橙、黃、綠、藍(lán)、黑、白等)。用戶可以在放置前選擇顏色,或配合油漆桶工具使用。

屬性 (Properties):

Position (X, Y, Z): 顯示當(dāng)前選中積木的坐標(biāo)。

Rotation: 包含一個(gè)按鈕(通常是旋轉(zhuǎn)90度),用于調(diào)整積木方向。

場(chǎng)景設(shè)置 (Scene):

Grid: 開(kāi)關(guān)網(wǎng)格顯示。

Shadows: 開(kāi)關(guān)陰影渲染,用于提升真實(shí)感或節(jié)省性能。

5,底部狀態(tài)欄 (Footer)

提供統(tǒng)計(jì)信息和操作提示。

統(tǒng)計(jì)數(shù)據(jù): 左下角顯示 Bricks (積木數(shù)量) 和 File Size (文件大小)。

上下文提示: 屏幕底部中間會(huì)根據(jù)當(dāng)前工具顯示提示文本,例如 "Place Brick (Click to rotate)" 或 "Paint Brick (Click to select)",這是非常好的UX設(shè)計(jì),降低了學(xué)習(xí)成本。

6,總結(jié)與UX亮點(diǎn)

極簡(jiǎn)主義: 界面沒(méi)有復(fù)雜的菜單層級(jí),所有常用功能都平鋪在界面上,所見(jiàn)即所得。

清晰的邏輯: “左側(cè)選材 -> 中間搭建 -> 右側(cè)調(diào)整”的操作流非常符合直覺(jué)。

視覺(jué)輔助: 預(yù)覽(Ghosting)和網(wǎng)格吸附功能極大地降低了在2D屏幕上操作3D物體的難度,確保積木不會(huì)放歪。

將以上提示詞用于 Gemini 3 生成 3D 樂(lè)高引擎,如果做得好,那便是多模態(tài)理解和編程雙劍合璧。

最終實(shí)現(xiàn)的 3D 樂(lè)高引擎能夠成功運(yùn)行,雖然沒(méi)有完全按照分析細(xì)節(jié)來(lái)實(shí)現(xiàn),或者說(shuō)沒(méi)有完全復(fù)刻原版,而是簡(jiǎn)化了很多。



但至少基礎(chǔ)的磚塊、添加、刪除、上色、視圖、旋轉(zhuǎn)、導(dǎo)出等是都有的,足夠完成一個(gè)最粗糙的作品。



上面案例所采用的 Three.js 畢竟是 Javascript 的庫(kù),如果能用純 Javascript 寫出足夠復(fù)雜的前端場(chǎng)景,那才更厲害,為此自然還是得測(cè)試寫一個(gè)的 Excel 原型才能讓人信服。

知危套用之前 GPT-5 在 Cursor 一次運(yùn)行成功的提示詞,再次輸入到網(wǎng)頁(yè)版 Gemini 3 中,試圖復(fù)刻。

提示詞如下:

請(qǐng)幫我開(kāi)發(fā)一個(gè)功能完整的網(wǎng)頁(yè)版Excel應(yīng)用,技術(shù)棧使用HTML、CSS、JavaScript,需要實(shí)現(xiàn)以下核心功能模塊:

-第一階段:基礎(chǔ)功能(核心優(yōu)先級(jí))

網(wǎng)格渲染系統(tǒng):

實(shí)現(xiàn)1000×1000單元格的虛擬渲染;

優(yōu)化滾動(dòng)性能,確保流暢體驗(yàn);

橫坐標(biāo)(A、B、C等)和縱坐標(biāo)(1、2、3等)需要與單元格精確對(duì)齊;

滾動(dòng)時(shí)坐標(biāo)軸與內(nèi)容區(qū)域保持同步,無(wú)偏移;

單元格編輯功能:

雙擊單元格進(jìn)入編輯狀態(tài),編輯框與原單元格完全重合;

Enter鍵保存內(nèi)容并向下移動(dòng)到下一個(gè)單元格;

Tab鍵保存內(nèi)容并向右移動(dòng)到下一個(gè)單元格;

支持空值和默認(rèn)值的正確處理;

編輯欄應(yīng)可編輯,實(shí)時(shí)顯示和修改當(dāng)前選中單元格的值;

富文本格式工具欄:

實(shí)現(xiàn)獨(dú)立的格式按鈕,每個(gè)按鈕狀態(tài)基于當(dāng)前選中單元格的格式屬性獨(dú)立判斷;

字體大小調(diào)整;

加粗、斜體、下劃線、刪除線(按鈕狀態(tài)互相獨(dú)立);

文本對(duì)齊:左對(duì)齊、居中、右對(duì)齊;

背景顏色設(shè)置;

一鍵清除格式功能;

UI界面要求:

頂部工具欄包含所有格式設(shè)置按鈕;

名稱框顯示當(dāng)前選中單元格坐標(biāo)(如A1、B2);

編輯欄顯示并可編輯當(dāng)前單元格內(nèi)容;

整體界面美觀,具有現(xiàn)代化設(shè)計(jì)風(fēng)格;

-第二階段:高級(jí)功能(擴(kuò)展功能)

行列操作:

點(diǎn)擊行號(hào)后,按"="鍵在下方插入新行,按"-"鍵刪除當(dāng)前行;

點(diǎn)擊列號(hào)后,按"="鍵在右側(cè)插入新列,按"-"鍵刪除當(dāng)前列;

刪除后自動(dòng)重排坐標(biāo)編號(hào),保持連續(xù)性;

添加最小保護(hù)機(jī)制,避免刪除最后一行或列;

復(fù)制粘貼操作:

實(shí)現(xiàn)Command/Ctrl+C(復(fù)制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘貼)快捷鍵;

支持單元格內(nèi)容和格式的復(fù)制粘貼;

支持行列的整體復(fù)制粘貼操作;

撤銷恢復(fù)系統(tǒng):

實(shí)現(xiàn)Command/Ctrl+Z(撤銷)和Command/Ctrl+Y(恢復(fù))功能;

維護(hù)操作歷史棧,限制最大100層以控制內(nèi)存;

頁(yè)面刷新時(shí)清空操作棧;

選擇功能:

支持單元格多選(拖拽選擇矩形區(qū)域);

支持整行、整列選擇;

選中狀態(tài)的可視化反饋;

-第三階段:完善功能(產(chǎn)品化)

數(shù)據(jù)導(dǎo)入導(dǎo)出:

支持導(dǎo)出為CSV格式文件;

支持導(dǎo)出為JSON格式文件;

確保導(dǎo)出的文件能在Microsoft Excel中正確打開(kāi);

UI美化優(yōu)化:

添加滾動(dòng)動(dòng)畫效果;

優(yōu)化陰影和漸變效果;

提升整體視覺(jué)體驗(yàn)和交互流暢度;

響應(yīng)式設(shè)計(jì),適配不同屏幕尺寸;

但最終寫出來(lái)的 Excel 有一堆 Bug,比如字體格式有時(shí)能用有時(shí)不能用,文本對(duì)齊、復(fù)制剪切功能也有各種意想不到的問(wèn)題,簡(jiǎn)直是災(zāi)難現(xiàn)場(chǎng),不如上次對(duì) GPT-5 的測(cè)試 ( 傳送門 )。



知危懷疑是網(wǎng)頁(yè)版 Gemini 的 Agent 能力不足,就切換到谷歌新推出的編程 IDE Antigravity,用相同的提示詞來(lái)測(cè)試。

結(jié)果,寫出來(lái)的網(wǎng)頁(yè)版 Excel 完全無(wú)法交互,鼠標(biāo)點(diǎn)擊沒(méi)有反應(yīng),也不能輸入,甚至不能顯示單元格,應(yīng)該說(shuō)比網(wǎng)頁(yè)版表現(xiàn)還差吧。



為了再給它一次機(jī)會(huì),我提示它自行檢查并修復(fù)。



第一階段:基本功能

發(fā)現(xiàn)一個(gè)錯(cuò)誤,即單元格編輯器和選中高亮顯示會(huì)在滾動(dòng)時(shí)與網(wǎng)格分離,因?yàn)樗鼈兾挥谝暱谌萜鞫莾?nèi)容容器中。已將它們移至正確的容器。

但它發(fā)現(xiàn)的錯(cuò)誤和單元格相關(guān),這并不是最關(guān)鍵的,甚至實(shí)際界面中都看不到有任何單元格。

接下來(lái),知危極大降低了要求,只讓 Antigravity 寫了一個(gè)《 2048 》游戲,看看產(chǎn)品本身是否有問(wèn)題。

測(cè)試發(fā)現(xiàn)游戲能運(yùn)行,視覺(jué)效果也很好。



但 Agent 運(yùn)行有一些問(wèn)題,會(huì)無(wú)限期的停留在測(cè)試階段。



到此,只能認(rèn)為 Antigravity 作為編程 IDE 產(chǎn)品還不夠成熟完善。為了最大程度發(fā)揮 Gemini 3 的編程水平,知危決定在 Cursor 上測(cè)試。

果然,在 Cursor 上調(diào)用 Gemini 3 Pro,就能用相同提示詞順利完成 Excel 原型的開(kāi)發(fā),而且也是一次成功。



目前為止,知危拿這個(gè)案例測(cè)試過(guò)很多大模型,只有 GPT-5 和Gemini 3 Pro 是能一次成功的。在 UI 審美上,Gemini 3 Pro 比 GPT-5 更好。

但接下來(lái)的測(cè)試再次讓知危大跌眼鏡。

還是緊接前面提到的 3D 樂(lè)高引擎案例,我們?cè)?Cursor 上再試一遍,因?yàn)?Cursor 無(wú)法輸入視頻,所以只用了 UI 截圖。

第一次嘗試,讓 Gemini 3 Pro 參考 3D 樂(lè)高引擎的UI界面截圖來(lái)開(kāi)發(fā)。



結(jié)果還是依樣畫葫蘆寫了個(gè)不能交互的網(wǎng)頁(yè)。



知危給了它最后一次機(jī)會(huì),將前面在網(wǎng)頁(yè)版 Gemini 3 分析推特視頻后得到的提示詞,再一次提供給 Cursor 中的 Gemini 3 Pro,結(jié)果這個(gè)網(wǎng)頁(yè)仍然是不能交互的。



到此,基于這些實(shí)測(cè)結(jié)果判斷,Gemini 3 的編程能力還是能達(dá)到頂尖水平,也有足夠的代碼審美,但發(fā)揮是不夠穩(wěn)定的,不管是幻覺(jué)率還是對(duì)指令遵循的細(xì)致全面程度,還沒(méi)有達(dá)到業(yè)內(nèi)最高水平。

前面因?yàn)榉治?3D 樂(lè)高引擎視頻被帶進(jìn)了編程能力測(cè)評(píng)的坑,但多模態(tài)理解測(cè)評(píng)的難度還沒(méi)真的上來(lái),我們繼續(xù)這個(gè)維度的測(cè)評(píng)。

為了提高多模態(tài)分析的難度,自然還是要上 ARC-AGI-2 這個(gè)測(cè)試集,畢竟 Gemini 3 在這個(gè)基準(zhǔn)測(cè)試集中的提升幅度是最大的。



但知危不是拿公開(kāi)的評(píng)估集來(lái)再測(cè)一次,測(cè)試設(shè)置需要針對(duì)多模態(tài)這個(gè)屬性做一些調(diào)整。

ARC-AGI-2 的官方發(fā)布使用 json 表示二維網(wǎng)格,例如下圖是該項(xiàng)目的 GitHub 中包含的一個(gè)評(píng)測(cè)集中的數(shù)據(jù)部分展示:



樣本:e376de54.json,來(lái)源:https://github.com/arcprize/ARC-AGI-2/blob/main/data/evaluation

通過(guò)順手 vibe 一個(gè)小型程序可以將這個(gè)矩陣轉(zhuǎn)換成圖像( 每個(gè)數(shù)字代表在圖像中的坐標(biāo)和顏色 ),如下圖所示:



知危不想按照官方設(shè)置使用 json 為輸入,而是要以圖像作為輸入傳遞給 Gemini 3,并且為防止大模型吸收基準(zhǔn)測(cè)試數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)取巧,會(huì)對(duì)這個(gè)評(píng)估集樣本再做一些微調(diào)( 修改 json 數(shù)據(jù)再轉(zhuǎn)換為圖像即可 )。比如下圖中,左圖是原評(píng)估集樣本,右圖是微調(diào)后的樣本,黑邊與數(shù)據(jù)無(wú)關(guān)可忽略。



按這個(gè)思路,知危制作出了兩個(gè)新的謎題。這是第一題:



下圖是準(zhǔn)確答案,應(yīng)該按照排第二的長(zhǎng)度值重組所有斜線。



Gemini 3 的分析框架是對(duì)的,但得出的結(jié)論卻是:取最大長(zhǎng)度統(tǒng)一( 無(wú)法理解,真的就差一點(diǎn)點(diǎn)啊 )。



在下一道題中,知危對(duì)原評(píng)估集樣本做了如下改動(dòng)( 樣本:247ef758.json ):



這是第二道題的完整呈現(xiàn):



下圖是準(zhǔn)確答案,方框的四條邊上如果有某個(gè)顏色構(gòu)成十字相對(duì)方位,該顏色對(duì)應(yīng)的方框外幾何素材就可以放入方框內(nèi)十字交叉點(diǎn)的位置。這里因?yàn)槲⒄{(diào)了顏色,第四組的藍(lán)色幾何素材也要放入方框內(nèi)。



Gemini 3 有理解到規(guī)則是對(duì)左側(cè)素材的篩選,但錯(cuò)誤地把篩選規(guī)則理解為基于素材的形狀,映射位置規(guī)則有理解到要基于方框邊框像素點(diǎn),但沒(méi)有精確到十字交叉點(diǎn)。



所以,它最終得出來(lái)的答案也是錯(cuò)誤的。



這才測(cè)了兩道,Gemini 3 就都錯(cuò)了。要知道這還是 ARC-AGI-2 中比較簡(jiǎn)單的題。

樣本:4c7dc4dd.json

這個(gè)結(jié)果并不代表 Gemini 3 在類似 ARC-AGI-2 場(chǎng)景中的實(shí)際表現(xiàn),畢竟實(shí)驗(yàn)設(shè)置不同,只是也表明 Gemini 3 在靜態(tài)圖像的空間認(rèn)知和邏輯分析上還是比較初級(jí)的,過(guò)程有理有據(jù),但低級(jí)錯(cuò)誤令人頭疼。

好了,到了這里,本期內(nèi)容的全部測(cè)評(píng)就結(jié)束了。

通過(guò)這個(gè)測(cè)評(píng),可以認(rèn)為,Gemini 3 在各種多模態(tài)理解和編程場(chǎng)景中,都給出了局部亮眼、整體不穩(wěn)定的表現(xiàn),比如:

  • 能多維度分析電視劇劇情和人物,卻把主角給認(rèn)錯(cuò);
  • 能自主分析運(yùn)動(dòng)員連續(xù)動(dòng)作,卻編造不存在的球員動(dòng)作;
  • 能逐幀分析視頻,卻高度依賴語(yǔ)音;
  • 能寫全UI解析,卻不能完整復(fù)刻;
  • 能寫好Excel,卻寫不好3D樂(lè)高引擎;
  • 圖片理解框架很有邏輯,卻敗在尺寸比較的一小步;

所以 Gemini 3 給人的感覺(jué)就是巨好玩,但不夠令人放心,畢竟跨越不同模態(tài)確實(shí)有趣,但聚焦單個(gè)模態(tài)才是專業(yè),換句話說(shuō)就是 ToC 屬性爆棚,ToB 屬性還不夠。

他有點(diǎn)像一個(gè)優(yōu)秀大學(xué)畢業(yè)的高學(xué)歷實(shí)習(xí)生,知識(shí)素養(yǎng)足夠,但真讓他干活他也是錯(cuò)漏百出。

總之,我們暫時(shí)認(rèn)為 Gemini 3 玩一玩是很不錯(cuò)的,但是還是盡量不要把它用到生產(chǎn)環(huán)境,萬(wàn)一出什么問(wèn)題也不好解決。( 昨天吃到個(gè)不知真假的瓜,有人用 Gemini 3 來(lái) Coding 的時(shí)候被刪了 800G 重要文件 )

或許,谷歌這次能這么強(qiáng)得益于其生態(tài)中擁有的豐富模態(tài)的海量數(shù)據(jù),隨之帶來(lái)的缺點(diǎn)是谷歌還來(lái)不及將模型調(diào)教的足夠可靠。

當(dāng)然,畢竟?jié)摿μ?,我們還是期待谷歌和 Gemini 家族的后續(xù)發(fā)力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗宣布斬首以色列空軍司令,摧毀法國(guó)海軍基地!

伊朗宣布斬首以色列空軍司令,摧毀法國(guó)海軍基地!

勝研集
2026-03-02 00:05:34
NBA中國(guó)官網(wǎng):楊瀚森最近有個(gè)“不成文義務(wù)”,給傷員當(dāng)“陪練”

NBA中國(guó)官網(wǎng):楊瀚森最近有個(gè)“不成文義務(wù)”,給傷員當(dāng)“陪練”

懂球帝
2026-03-02 15:23:08
任意球世界波!梅西70球追平貝利,2射1傳獲9.5分,5數(shù)據(jù)居首

任意球世界波!梅西70球追平貝利,2射1傳獲9.5分,5數(shù)據(jù)居首

奧拜爾
2026-03-02 10:28:16
重磅消息:數(shù)架美國(guó)戰(zhàn)機(jī)墜毀!

重磅消息:數(shù)架美國(guó)戰(zhàn)機(jī)墜毀!

占豪
2026-03-02 17:32:13
大量食用油被檢測(cè)出致癌物!自查廚房是否有這3種油,可別再吃了

大量食用油被檢測(cè)出致癌物!自查廚房是否有這3種油,可別再吃了

讀懂世界歷史
2026-03-01 18:09:06
官宣!17歲新星前鋒,獲中國(guó)足球金童獎(jiǎng),U17亞預(yù)賽狂轟5場(chǎng)9球

官宣!17歲新星前鋒,獲中國(guó)足球金童獎(jiǎng),U17亞預(yù)賽狂轟5場(chǎng)9球

小金體壇大視野
2026-03-02 17:08:27
又有兩國(guó)參戰(zhàn)中東!關(guān)鍵時(shí)刻,美媒曝出消息:沙特把中國(guó)也騙了?

又有兩國(guó)參戰(zhàn)中東!關(guān)鍵時(shí)刻,美媒曝出消息:沙特把中國(guó)也騙了?

讓心靈得以棲息
2026-03-02 17:31:20
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬(wàn)噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬(wàn)噸燃油被點(diǎn)燃

夢(mèng)史
2026-03-01 11:22:23
美國(guó)防部將就針對(duì)伊朗的軍事行動(dòng)召開(kāi)新聞發(fā)布會(huì)

美國(guó)防部將就針對(duì)伊朗的軍事行動(dòng)召開(kāi)新聞發(fā)布會(huì)

界面新聞
2026-03-02 10:30:00
NBA排名大亂!火箭第3,湖人掉第6;騎士坐4望3,黃蜂沖前7

NBA排名大亂!火箭第3,湖人掉第6;騎士坐4望3,黃蜂沖前7

麥子的籃球故事
2026-03-02 18:25:41
彈跳驚人,謝什科慶祝時(shí)跳得太高在鏡頭前出畫了

彈跳驚人,謝什科慶祝時(shí)跳得太高在鏡頭前出畫了

懂球帝
2026-03-02 01:05:13
日本玩大了!P-3C首闖臺(tái)島咽喉,解放軍當(dāng)場(chǎng)翻臉,全程貼臉硬剛!

日本玩大了!P-3C首闖臺(tái)島咽喉,解放軍當(dāng)場(chǎng)翻臉,全程貼臉硬剛!

古史青云啊
2026-03-02 10:36:50
從設(shè)計(jì)院到包子店:一位45歲建筑師靠“打零工”重啟人生

從設(shè)計(jì)院到包子店:一位45歲建筑師靠“打零工”重啟人生

北青深一度
2026-02-28 16:09:26
300萬(wàn)在上海買得了什么樣的房?

300萬(wàn)在上海買得了什么樣的房?

真叫盧俊
2026-03-02 10:14:16
臨死之前,哈梅內(nèi)伊做對(duì)了此生最后一件事!讓特朗普無(wú)法如愿以償

臨死之前,哈梅內(nèi)伊做對(duì)了此生最后一件事!讓特朗普無(wú)法如愿以償

青煙小先生
2026-03-02 11:03:39
真相大白!王曼昱丟冠原因曝光,是打不過(guò)莎莎嗎?張繼科早有預(yù)言

真相大白!王曼昱丟冠原因曝光,是打不過(guò)莎莎嗎?張繼科早有預(yù)言

曹說(shuō)體育
2026-03-01 22:16:15
美國(guó)媒體:因芯片含有中國(guó)稀土,臺(tái)積電無(wú)法向美國(guó)供應(yīng)半導(dǎo)體芯片

美國(guó)媒體:因芯片含有中國(guó)稀土,臺(tái)積電無(wú)法向美國(guó)供應(yīng)半導(dǎo)體芯片

Thurman在昆明
2026-03-02 01:17:58
上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評(píng)論區(qū)嚇傻了

上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評(píng)論區(qū)嚇傻了

不二表姐
2026-02-24 22:17:15
美國(guó)警方承認(rèn)谷愛(ài)凌曾遭毆打,手臂抓傷嚴(yán)重,未來(lái)人身安全存隱患

美國(guó)警方承認(rèn)谷愛(ài)凌曾遭毆打,手臂抓傷嚴(yán)重,未來(lái)人身安全存隱患

削桐作琴
2026-03-01 14:27:41
CME:紐約商交所原油期貨開(kāi)盤時(shí)觸發(fā)熔斷機(jī)制

CME:紐約商交所原油期貨開(kāi)盤時(shí)觸發(fā)熔斷機(jī)制

每日經(jīng)濟(jì)新聞
2026-03-02 09:27:05
2026-03-02 18:43:00
知危 incentive-icons
知危
投資不立危墻之下
540文章數(shù) 1833關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

伊朗曾組建反間諜機(jī)構(gòu) 結(jié)果最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜

頭條要聞

伊朗曾組建反間諜機(jī)構(gòu) 結(jié)果最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
手機(jī)
房產(chǎn)
親子
公開(kāi)課

教育要聞

250都會(huì)的解方程,你不會(huì)?

手機(jī)要聞

視頻能力能媲美iPhone 春晚已經(jīng)驗(yàn)證!vivo X300 Ultra正式亮相 三大創(chuàng)新公布

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝?shū)包大盤殺出!

親子要聞

阿寶和藏區(qū)老二居然就差一天的生日時(shí)間,今天我們給他們過(guò)生日哦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版