国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌干掉「請再說一次」!Gemini 3.1毫秒級接話,實時Agent時代來了

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】語音AI最煩人的一句話,可能終于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人與人說話那樣響應(yīng)」的體驗:不僅更快、更自然,連在交通聲、電視聲這樣的真實噪音里,也更能聽清你在說什么。

剛剛,谷歌把語音AI最煩人的一句話狠狠干掉了:「請再說一次?!?/p>


這次谷歌新發(fā)布的 Gemini 3.1 Flash Live,直接瞄準了現(xiàn)實生活中最亂、最吵的那些場景。


https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/

更重要的是,它不只是「聽」,它還能看,還能調(diào)用工具,還能守住設(shè)定邊界。

谷歌稱,這是在延遲、可靠性和更自然的對話表現(xiàn)上的一次躍遷式提升。

你說話的速度

就是它思考的速度

谷歌官方博客中提到,實時交互里,每一毫秒的延遲,都會破壞用戶期待的自然對話流。

因此,Gemini 3.1 Flash Live的一個目標,就是把語音Agent推進到「接近對話本身速度的響應(yīng)」。


因為現(xiàn)實體驗中,語音AI最勸退人的不是答錯,而是那種你已經(jīng)張嘴說完,它還在后臺轉(zhuǎn)圈帶來的「斷片」感。

谷歌這次改進的方向,不是某一個點,而是語音Agent最容易掉鏈子的整條實時交互系統(tǒng):

一邊增強對音高、語速、重音和意圖的識別能力;一邊強化復(fù)雜系統(tǒng)指令遵循,讓Agent即便在對話突然轉(zhuǎn)向時,也能守住既定邊界、不輕易跑偏。

更關(guān)鍵的是,谷歌還專門強調(diào)了它在真實噪音環(huán)境中的任務(wù)完成率提升:

面對交通聲、電視聲等背景干擾,模型能更有效地區(qū)分有效語音與環(huán)境噪聲,在實時對話中更穩(wěn)定地觸發(fā)工具、返回信息。

并且,相比2.5 Flash Native Audio,新模型在這些方面都有明確提升。


AI終于走出實驗室

想象在一個嘈雜的咖啡廳:

隔壁兩個人正在吵架,你一邊盯著明天的航班,一邊對手機說:幫我改簽到上午。

結(jié)果你說3遍,它仍是回答你3次:「抱歉,請再說一次?!?/p>

這樣的情景是不是很熟悉?

語音AI這些年最大的問題,并不是它「能不能聊天」,而是它能不能在你需要它的時候和它聊天。

這些需要和它聊天的場景,往往是在地鐵站、車上、開著電視的客廳、菜市場這些噪聲環(huán)境,所以,谷歌這次把「噪聲」放到了非常核心的位置。


新模型顯著提升了在嘈雜、真實環(huán)境中的任務(wù)完成率,能更準確地區(qū)分有效語音和交通聲、電視聲等環(huán)境噪音。

這些改進,讓語音AI能夠更適應(yīng)真實場景的需要。

設(shè)計師、老人、玩家

三個人的AI已經(jīng)不一樣了

谷歌官方列舉了Gemini 3.1 Flash Live在設(shè)計、陪伴和游戲三個代表性的案例。


設(shè)計師

語音第一次變成創(chuàng)作工具

谷歌官方稱,借助Gemini Live API,用戶現(xiàn)在可以直接用語音做創(chuàng)意設(shè)計,AI不僅能聽,還能看到你的畫布和當(dāng)前選中的界面,然后給出設(shè)計點評、生成變體。

小功能背后,設(shè)計工作流也在改變。

以前你跟設(shè)計工具的關(guān)系,是手點。后來是手點+文字框?,F(xiàn)在開始變成:你一邊看畫布,一邊開口,AI一邊理解、一邊改。

這意味著設(shè)計師不再只是「操作軟件」,而是在「調(diào)度一個實時搭檔」。

你不用停下來把腦子里的感覺翻譯成一大段prompt,而可以直接說:這個卡片太滿了、留白拉開、主按鈕再有互動性一點、這個版本偏保守,給我三個更大膽的……

這正是語音在創(chuàng)作場景里的真正價值,它將大大縮短靈感到執(zhí)行之間的距離。

在Stitch這種場景里,語音已經(jīng)不是輸入法了,而成了創(chuàng)作指揮棒。


老人

陪伴終于不是假聊天了

第二個案例,是Hey Ato。

這是一個面向老年人的AI陪伴設(shè)備。

谷歌給出的重點是,Ato利用Gemini 3.1 Flash Live的多種語言支持能力,把日常對話變成真正的聯(lián)系。

「AI陪伴」過去最大的問題不是功能少,而是太假、太模板化,而老年場景,對「實時感」「打斷恢復(fù)」「語言自然度」的要求,遠比年輕人想象得更高。

對很多老人來說,他們不會有耐心和能力去調(diào)參數(shù),也不會切來切去看屏幕。

Gemini 3.1 Flash Live的多語言、低延遲和更自然對話,在這樣的場景中成了一個入門級的能力。

當(dāng)AI設(shè)備真的能用父母更熟悉的母語,穩(wěn)定地接住日常閑聊時,它才能真正讓「人機交互」切入「陪伴關(guān)系」這一高挑戰(zhàn)場景。


玩家

游戲里的NPC終于不像木頭人了

第三個場景最有戲劇感。

它來自Weekend團隊的RPG游戲Wit’s End。

谷歌官方說,他們把Gemini 3.1 Flash Live的「強角色塑造能力」和「類人的表達方式」結(jié)合起來,給Game Master加上了獨特的戲劇風(fēng)格。

游戲也是實時語音AI最危險、也最容易炸場的場景,因為玩家對「卡頓」和「出戲」的容忍度極低,這也是為什么游戲行業(yè)會特別敏感地擁抱這類能力。

他們不需要一個「會回答問題的模型」,而是需要一個「能演、能接、能控場」的實時角色。

從Stitch到Ato,再到Wit’s End,谷歌Gemini 3.1 Flash Live其實都是在印證這樣一個變化:

語音+視覺Agent,正在同時滲透進創(chuàng)造、陪伴、娛樂這三種最貼近個體生活的場景。

實時AI競賽的戰(zhàn)火

正在燒向App

對于大廠來說,最值得警惕的,往往不是它們某個單點功能有多強,而在于它什么時候開始變成基礎(chǔ)能力。

Gemini 3.1 Flash Live這次最讓競爭對手感到危險的,也正是在這里。

自3月26日起,Gemini 3.1 Flash Live已通過Gemini API和Google AI Studio提供,當(dāng)前為預(yù)覽版,開發(fā)者可通過Live API集成。

官方文檔中特別強調(diào)了tool use、session management、ephemeral tokens等關(guān)鍵能力,這些都直接對應(yīng)實時Agent落地時最核心的工程問題。


https://ai.google.dev/gemini-api/docs/live-api/get-started-sdk

按照官方文檔,Gemini Live API基于有狀態(tài)WebSocket連接,支持連續(xù)的音頻、圖片和文本流輸入,并以低延遲方式返回語音結(jié)果。

輸入側(cè)可接收16kHz、16-bit PCM音頻,輸出側(cè)則返回24kHz、16-bit PCM音頻。

換句話說,它不是傳統(tǒng)那種「說一句、等一次結(jié)果」的調(diào)用方式,而更像一個持續(xù)在線的實時交互回路。

文檔還明確列出了多語言支持、用戶隨時打斷、函數(shù)調(diào)用與Google Search等工具接入、輸入輸出轉(zhuǎn)寫、主動音頻控制等能力。

對開發(fā)者來說,這些能力組合起來,意味著它已經(jīng)不再只是一個會語音對話的模型,而是一個可直接接入應(yīng)用工作流的實時Agent接口。

Google AI for Developers的版本說明也確認了模型名為gemini-3.1-flash-live-preview。

由此看,這次更新不再只是谷歌自家產(chǎn)品里的一個新功能,而是一個可被復(fù)制、可被集成、可被規(guī)模化嵌入的能力層。

不僅如此,谷歌還在博客中專門提到了兩類合作伙伴能力:WebRTC擴展,以及全球邊緣路由。


這說明谷歌考慮的已經(jīng)不只是模型演示效果,而是更接近真實生產(chǎn)部署的要求。

視頻流、電話場景、跨區(qū)域低延遲分發(fā),這些都不是「實驗室demo」會提前考慮的東西。

這次升級,官方不只開了API,還給了Live API文檔、示例,以及GenAI SDK代碼入口。

也就是說,下一波實時AI應(yīng)用的爆發(fā),不一定從大廠內(nèi)部開始,很可能是從一批動作快的開發(fā)者和創(chuàng)業(yè)團隊開始。

很多人還在把「實時語音助手」理解成一個獨立產(chǎn)品,但未來真正可能發(fā)生的,并不是你去下載一個新的AI App,而是你原來每天就在用的App,某天突然多了一個按鈕。

它可以與你實時交互,會看、會聽、能做事,那時整個交互范式可能已經(jīng)開始變化。

語音AI真正的敵人

也許不是技術(shù)

谷歌官方這次推出的是預(yù)覽版(preview),即Gemini 3.1 Flash Live現(xiàn)在仍處在預(yù)覽階段。

官方文檔已經(jīng)提示了兩種典型接入模式:要么由后端中轉(zhuǎn),與Live API進行服務(wù)器到服務(wù)器通信;要么由前端直接建立WebSocket連接,但在生產(chǎn)環(huán)境里推薦改用臨時Token,而不是直接暴露標準API Key。

當(dāng)然,這套能力距離「無摩擦落地」還有一段距離。

因為,實時語音Agent并不只是模型問題,它還疊加了持續(xù)連接、音視頻流傳輸、狀態(tài)保持和安全控制等工程約束。

也就是說,Gemini 3.1 Flash Live雖然已經(jīng)把「實時多模態(tài)交互」這層能力打開了,但要真正把它打磨成穩(wěn)定產(chǎn)品,還需要回答以下現(xiàn)實性的問題:

成本會不會壓垮高頻使用?長時對話穩(wěn)定性到底怎么樣?多人環(huán)境下的說話權(quán)分離能做到多穩(wěn)?隱私、誤觸發(fā)、持續(xù)監(jiān)聽的邊界怎么畫……

這些問題解決,實時語音Agent才有望真正成為「下一代入口」。

但至少這次Gemini 3.1 Flash Live發(fā)布讓我們看到:語音AI終于不那么像一個總在掉鏈子的笨助手了。

過去,人類用API調(diào)AI。接下來,AI會越來越頻繁地替你調(diào)用世界。

一旦響應(yīng)速度追平人類開口的節(jié)奏,很多今天看起來還不成立的場景,明天就會突然成立。

比如,它能替你打電話、改簽、盯屏幕、陪父母聊天、打游戲……我們?nèi)粘5亩鷻C、手機、眼鏡也可能改變,我們經(jīng)常使用的App也可能被重新定義。

那時,我們與機器溝通的習(xí)慣方式,可能真的是要改變了。

參考資料:

https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/

https://x.com/OfficialLoganK/status/2037187750005240307

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
英國將召集35國開會討論恢復(fù)霍爾木茲海峽通航,不包括美國

英國將召集35國開會討論恢復(fù)霍爾木茲海峽通航,不包括美國

澎湃新聞
2026-04-02 12:32:28
43歲林依晨參演暗戀桃花源話劇,顏值變化挺大的,變得憔悴了好多

43歲林依晨參演暗戀桃花源話劇,顏值變化挺大的,變得憔悴了好多

觀魚聽雨
2026-04-02 19:20:27
68歲陳忠和近況:四口之家很幸福,女兒系前妻生,趙蕊蕊常去探望

68歲陳忠和近況:四口之家很幸福,女兒系前妻生,趙蕊蕊常去探望

白面書誏
2026-03-21 16:13:21
今晚!CCTV5直播國乒,王楚欽VS小勒布倫,王藝迪輕取張本美和

今晚!CCTV5直播國乒,王楚欽VS小勒布倫,王藝迪輕取張本美和

晚池
2026-04-03 02:18:20
新婚之夜丈夫提AA制,妻子怒道:懷孕無法A,以后進我屋一次5千

新婚之夜丈夫提AA制,妻子怒道:懷孕無法A,以后進我屋一次5千

廣西秦胖胖
2026-04-01 14:30:03
隊報:亞馬爾稅前年薪1600萬歐,加獎金基本薪資能加1000萬歐

隊報:亞馬爾稅前年薪1600萬歐,加獎金基本薪資能加1000萬歐

懂球帝
2026-04-02 20:29:06
上海全市統(tǒng)一執(zhí)行,非機動車與步行出行規(guī)則更新

上海全市統(tǒng)一執(zhí)行,非機動車與步行出行規(guī)則更新

娛樂圈的筆娛君
2026-04-03 00:01:12
董璇陪張維伊回老家給公婆掃墓,網(wǎng)友:本人好漂亮,47看著像37

董璇陪張維伊回老家給公婆掃墓,網(wǎng)友:本人好漂亮,47看著像37

老吳教育課堂
2026-04-03 04:51:07
天津交警:明年5月1日起,這些車輛禁止上路!

天津交警:明年5月1日起,這些車輛禁止上路!

全接觸狐狐
2026-04-02 20:50:52
“國家隊”持股動向曝光:匯金資管重倉中國平安,社?;鸺觽}三一重工、減持云鋁股份

“國家隊”持股動向曝光:匯金資管重倉中國平安,社?;鸺觽}三一重工、減持云鋁股份

華夏時報
2026-04-02 22:30:16
3球5助攻!17歲比利時中場神童橫空出世,新維特塞爾,7豪強瘋搶

3球5助攻!17歲比利時中場神童橫空出世,新維特塞爾,7豪強瘋搶

零度眼看球
2026-04-03 06:59:37
WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產(chǎn)的?

WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產(chǎn)的?

CNMO科技
2026-04-01 09:34:10
26688分!得分榜第17位啊,36歲還在破紀錄,北境之王,真的強

26688分!得分榜第17位啊,36歲還在破紀錄,北境之王,真的強

球童無忌
2026-04-02 21:35:59
8年僅1球!泰山從國安引進這位水貨前鋒徹底看走眼,堪稱最差引援

8年僅1球!泰山從國安引進這位水貨前鋒徹底看走眼,堪稱最差引援

零度眼看球
2026-04-03 06:40:28
他是廣東省委原書記,1978年被免職審查,晚年享受大軍區(qū)副職待遇

他是廣東省委原書記,1978年被免職審查,晚年享受大軍區(qū)副職待遇

歷史的煙火
2026-04-03 02:39:01
兩年前“預(yù)言”美伊開戰(zhàn)的北京高中老師,對局勢有了新判斷

兩年前“預(yù)言”美伊開戰(zhàn)的北京高中老師,對局勢有了新判斷

用淚來贖罪
2026-04-01 16:45:43
一位施工員的咆哮:我一月5千工資,我給我父母養(yǎng)老,有什么錯?

一位施工員的咆哮:我一月5千工資,我給我父母養(yǎng)老,有什么錯?

施工員小天哥
2026-04-01 16:00:30
江蘇銀行鹽城分行被罰80萬!兩行長連帶被罰…

江蘇銀行鹽城分行被罰80萬!兩行長連帶被罰…

俯瞰江蘇
2026-04-02 14:10:07
深圳市一棟5層巨無霸自建房拍賣,拍出551.76萬,19人搶著買

深圳市一棟5層巨無霸自建房拍賣,拍出551.76萬,19人搶著買

石辰搞笑日常
2026-04-02 18:19:20
90%的男人不知道:中年女人不用追!這4招讓她反過來倒追你

90%的男人不知道:中年女人不用追!這4招讓她反過來倒追你

藝鑒在線
2026-04-03 08:19:38
2026-04-03 08:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14876文章數(shù) 66738關(guān)注度
往期回顧 全部

科技要聞

戰(zhàn)火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經(jīng)要聞

全球石油危機或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
游戲
軍事航空

房產(chǎn)要聞

巨無霸來了!??诔歉?,突然又爆大動作!

藝術(shù)要聞

吳昌碩『扇畫』老辣古拙

數(shù)碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

《生化危機9》新Mod 格蕾絲穿謝娃比基尼服裝

軍事要聞

伊朗自殺無人機突進 逼退林肯號航母

無障礙瀏覽 進入關(guān)懷版