国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

幾千年都沒(méi)考過(guò)這個(gè)?谷歌「最毒」AI考局,專測(cè)你在壓力下怎么做人

0
分享至


新智元報(bào)道

編輯:元宇 大衛(wèi)

【新智元導(dǎo)讀】谷歌最新實(shí)驗(yàn)Vantage,派AI假扮你的同事,按劇本跟你唱反調(diào)、搞情緒化施壓?嫉牟皇悄阒朗裁,而是你在壓力下怎么做人。

考試考了幾千年,還從來(lái)沒(méi)人考過(guò)這個(gè)。

SAT考你數(shù)學(xué),GRE考你詞匯,再往前看:科舉考試考你的八股文……

古今考試形式不同,但底層邏輯卻很一致:考你知道什么。

但有一類能力,從來(lái)沒(méi)有考試碰過(guò):你跟人吵架時(shí)怎么辦。

最近,Google Research推出了一個(gè)叫Vantage的實(shí)驗(yàn)項(xiàng)目,就把這件事給干了。

Google Labs實(shí)驗(yàn)中的Vantage入口https://research.google.com/p/vantage


目前Vantage已經(jīng)在Google Labs開(kāi)放申請(qǐng)?bào)w驗(yàn),現(xiàn)階段主要支持英文。

Vantage項(xiàng)目由谷歌聯(lián)合紐約大學(xué)開(kāi)發(fā),主要設(shè)想是利用GenAI模擬團(tuán)隊(duì)協(xié)作場(chǎng)景,以此來(lái)開(kāi)發(fā)和測(cè)量被測(cè)試者的軟技能

它會(huì)把你扔進(jìn)一個(gè)AI角色扮演的協(xié)作場(chǎng)景里,然后讓你和一群AI角色組隊(duì)完成任務(wù)。

其中會(huì)有一個(gè)agent跳出來(lái),專門按劇本跟你唱反調(diào),拋不合理要求,搞情緒化反應(yīng)。

你在壓力下做出的每一個(gè)回應(yīng),都會(huì)被另一個(gè)Agent基于評(píng)分量表進(jìn)行分析,生成評(píng)分與反饋。

整個(gè)過(guò)程中,你所面對(duì)的是一個(gè)被AI精心操控的「職場(chǎng)修羅場(chǎng)」:它考的不是你背了多少東西,而是你在壓力下怎么做人。

谷歌聯(lián)合紐約大學(xué)做了188人驗(yàn)證,結(jié)果顯示:

AI評(píng)分與人類專家的一致性,跟專家與專家之間的一致性,處于同一水平。

這意味著,至少在「評(píng)判」這件事上,AI已經(jīng)開(kāi)始接近人類專家。

看來(lái),考試這件事,以后可能要被重新定義了。

最值錢的能力,偏偏最難考

為什么軟技能一直考不了?

這個(gè)事企業(yè)HR太清楚了:招人最怕的不是技術(shù)不行,而是進(jìn)了團(tuán)隊(duì)才發(fā)現(xiàn)這人完全不會(huì)協(xié)作。

世界經(jīng)濟(jì)論壇2025年《Future of Jobs 2025》報(bào)告給了一組數(shù)據(jù):到2030年,全球39%的核心職場(chǎng)技能將發(fā)生變化。


未來(lái)五年內(nèi),預(yù)計(jì)工人核心技能將發(fā)生改變與保持不變的占比演變https://www.weforum.org/publications/the-future-of-jobs-report-2025/

在企業(yè)最看重的能力排名中,分析思維排第一,緊隨其后的是韌性、靈活性、領(lǐng)導(dǎo)力與社會(huì)影響力,排在最前面的幾乎全是「軟技能」。


雇員最核心的技能中,排名靠前的包括分析思維、韌性、靈活性與敏捷性,以及領(lǐng)導(dǎo)力與社會(huì)影響力等。

AI時(shí)代,這些軟技能仍然是最核心的技能。

問(wèn)題是,怎么測(cè)?

傳統(tǒng)標(biāo)準(zhǔn)化測(cè)試太僵硬了,題目難易捕捉人類思維過(guò)程和人際互動(dòng),跟真實(shí)場(chǎng)景隔著十萬(wàn)八千里。

基本上只能依靠?jī)蓷l。

第一條,自我匯報(bào)問(wèn)卷。問(wèn)你「你善于溝通嗎」,人人都勾「是的」。

第二條,真人評(píng)估中心。請(qǐng)幾個(gè)專業(yè)考官,設(shè)計(jì)情境,觀察你一整天,最后給個(gè)評(píng)語(yǔ)。

靠譜是靠譜,但做一次往往價(jià)格不菲、耗時(shí)幾天,評(píng)分還因?yàn)榭脊俨煌啤?/p>

核心矛盾只有一條:軟技能必須在互動(dòng)中才能被觀測(cè),但標(biāo)準(zhǔn)化互動(dòng)的成本太高,限制了它的實(shí)現(xiàn)和推廣。

你不可能給每個(gè)學(xué)生配一個(gè)真人考官,讓他們吵一架再打分。

所以幾十年來(lái),這一直是教育評(píng)估領(lǐng)域的一個(gè)老大難問(wèn)題。

市場(chǎng)上也不是沒(méi)人嘗試。

HireVue用視頻面試做AI情緒分析,Pymetrics用神經(jīng)科學(xué)小游戲做性格測(cè)評(píng),但它們都有一個(gè)共同局限:

候選人面對(duì)的,更多仍是被設(shè)計(jì)好的數(shù)字流程,而不是一個(gè)會(huì)跟你爭(zhēng)論、會(huì)給你挖坑、會(huì)把互動(dòng)不斷推進(jìn)下去的真實(shí)對(duì)手。

直到谷歌推出 Vantage,事情才開(kāi)始變得不一樣:它試圖用多方AI角色協(xié)作生成情境,而且還把軟技能測(cè)試的成本壓到接近可規(guī);乃健

Vantage的多智能體架構(gòu)

Vantage不是一個(gè)AI在干活,而是一群AI在演戲,該系統(tǒng)的精巧之處在于架構(gòu)設(shè)計(jì)。


它不是一個(gè)AI出題、你來(lái)答題的傳統(tǒng)路子,而是搭了一個(gè)四層架構(gòu),每層都有AI各司其職,同時(shí)運(yùn)轉(zhuǎn)。

第一層,場(chǎng)景生成。

你輸入一個(gè)軟技能維度,比如「沖突解決」。系統(tǒng)不是隨機(jī)編個(gè)故事,它先拿到評(píng)估量表,看清楚「什么表現(xiàn)算好、什么算差」,然后倒推出一個(gè)能區(qū)分好壞的具體情境。

第二層,角色扮演。

這是整個(gè)系統(tǒng)最有意思的部分:多個(gè)AI agent各領(lǐng)一個(gè)角色進(jìn)入場(chǎng)景,跟真人被測(cè)者對(duì)話。

關(guān)鍵的地方來(lái)了:其中一個(gè)agent(Executive LLM)的任務(wù)就是「制造麻煩」。

谷歌研究人員提到,它的角色就是按劇本給你施壓、拋出不合理要求、搞情緒化反應(yīng)。

這不是隨便聊聊天,而是有組織、有「預(yù)謀」的壓力測(cè)試。

當(dāng)然,這個(gè)agent也不是傻壓,而是實(shí)時(shí)分析對(duì)話狀態(tài),動(dòng)態(tài)調(diào)整施壓策略。它就像一個(gè)自適應(yīng)的考試引擎,確?纪曛笤摬杉淖C據(jù)都采集到了。

第三層,行為提取。

對(duì)話結(jié)束后,另一個(gè)agent上場(chǎng),逐輪回看對(duì)話記錄。

它不打分,只做一件事:把你的具體行為抽出來(lái)。

哪句話是在回避沖突,哪句是在主動(dòng)傾聽(tīng),哪句是在強(qiáng)行說(shuō)服。

事實(shí)歸事實(shí),判斷歸判斷,這兩步被刻意分開(kāi)了。

第四層,評(píng)分。

評(píng)分agent拿著量表和上一步提取出的行為證據(jù),逐條對(duì)照打分。

每個(gè)分?jǐn)?shù)必須指向具體對(duì)話片段作為依據(jù),不允許憑印象給分。

這樣四層解耦的好處很明顯:場(chǎng)景可以換,角色可以換,評(píng)分標(biāo)準(zhǔn)可以換,但流水線本身不變,而且,模塊化意味著可擴(kuò)展。

今天測(cè)沖突解決,明天換個(gè)量表就能測(cè)項(xiàng)目管理,后天再換就能測(cè)談判能力。

熟悉軟件工程的人大概一眼就認(rèn)出來(lái)了,這就是把微服務(wù)架構(gòu)的思路,搬到了教育評(píng)估里。

188人實(shí)測(cè)

AI考官到底靠不靠譜

架構(gòu)再漂亮,不實(shí)測(cè)都是空談。

谷歌和NYU做了一次聯(lián)合驗(yàn)證。他們找了188名美國(guó)測(cè)試者,年齡18-25歲,在Vantage中完成了沖突解決和項(xiàng)目管理兩個(gè)維度的評(píng)估。

然后,NYU的人類評(píng)分專家用同一份rubric對(duì)同樣的對(duì)話記錄打分。

結(jié)果很有意思。

人類專家之間的一致性,Kappa值為0.45到0.64,也就是中等一致性。


專家彼此之間,以及大模型和專家之間,在對(duì)話評(píng)估上的一致性對(duì)比。 藍(lán)色是專家與專家,紅色是大模型與專家的一致性評(píng)估結(jié)果。柱子越高,代表看法越接近。

兩個(gè)人類專家給同一段對(duì)話打分,經(jīng)常打出不同的分?jǐn)?shù)。

這不意外。

軟技能評(píng)估本來(lái)就是主觀判斷密集的領(lǐng)域。

比如,一個(gè)人覺(jué)得候選人在沖突中表現(xiàn)出了「堅(jiān)定但尊重」,另一個(gè)人可能覺(jué)得那叫「固執(zhí)」。

而AI評(píng)分期跟人類專家之間的一致性呢?跟兩個(gè)人類專家之間差不多,這意味著它的評(píng)分質(zhì)量已經(jīng)到了同一水平線上。

這聽(tīng)起來(lái)似乎沒(méi)什么大不了,但在軟技能評(píng)估這個(gè)領(lǐng)域里,這已經(jīng)是一個(gè)了不起的基線。

更重要的是:人類專家一次只能評(píng)幾個(gè)人,AI可以同時(shí)評(píng)幾萬(wàn)人。

成本直接差了兩個(gè)數(shù)量級(jí)。

這不只是考試

很多人第一反應(yīng)是:這不就是個(gè)花哨的AI面試官嗎。

過(guò)去幾年,AI面試工具層出不窮,大多數(shù)最后淪為噱頭。

但Vantage更像是一個(gè)基礎(chǔ)設(shè)施層,目前谷歌已公開(kāi) Vantage 的技術(shù)報(bào)告與實(shí)驗(yàn)介紹,外界已經(jīng)能比較清楚地看到它如何用評(píng)分量表驅(qū)動(dòng)情境生成、角色互動(dòng)與結(jié)果評(píng)估。

從方法上看,這套框架具備一定的可遷移性:在理論上,研究者或機(jī)構(gòu)可以圍繞不同軟技能設(shè)計(jì)相應(yīng)任務(wù)與量表,并據(jù)此搭建類似的評(píng)估流程。

比如,企業(yè)可以探索把它用于領(lǐng)導(dǎo)力或協(xié)作場(chǎng)景的訓(xùn)練與評(píng)估,教育機(jī)構(gòu)也可以把它用于協(xié)作能力練習(xí)和反饋。

這讓人想起教育評(píng)估領(lǐng)域長(zhǎng)期討論的「形成性評(píng)估」:不是期末一次定結(jié)果,而是在學(xué)習(xí)過(guò)程中持續(xù)測(cè)量、持續(xù)反饋、持續(xù)調(diào)整。

過(guò)去這件事之所以難以規(guī);粋(gè)重要原因是高質(zhì)量互動(dòng)評(píng)估往往依賴真人考官,成本高、耗時(shí)長(zhǎng)、標(biāo)準(zhǔn)化困難。

而像Vantage這類基于生成式AI的模擬評(píng)估系統(tǒng),則讓這件事第一次呈現(xiàn)出更強(qiáng)的可擴(kuò)展性。

當(dāng)「最難考的能力」變得可考

當(dāng)然,必須說(shuō)清楚Vantage目前的邊界。

Google Labs博客中將其定義為研究實(shí)驗(yàn),它目前更接近一個(gè)公開(kāi)可體驗(yàn)的研究實(shí)驗(yàn),而不是已經(jīng)大規(guī)模落地的成熟應(yīng)用。


188人的驗(yàn)證規(guī)模不算大,只明確覆蓋了協(xié)作中的沖突解決和項(xiàng)目管理兩個(gè)維度,跨文化場(chǎng)景沒(méi)碰,長(zhǎng)期技能成長(zhǎng)追蹤沒(méi)做,模擬環(huán)境里的表現(xiàn)能不能遷移到真實(shí)的人際互動(dòng),也還是個(gè)問(wèn)號(hào)。

谷歌自己也承認(rèn),下一步要研究的正是這些。但這不妨礙Vantage這項(xiàng)實(shí)驗(yàn)的潛力。

OECD早就把創(chuàng)造力、批判性思維列進(jìn)了教育系統(tǒng)的核心討論。所有人都知道軟技能重要,但沒(méi)人真正解決過(guò)怎么測(cè)、怎么大規(guī)模地測(cè)。

Vantage給出了一個(gè)可能的答案。

Google Research博客里提到了這樣一句話:「在全球教育體系中,被測(cè)量的東西往往就是被教授的東西。」


這句話才是真正的炸彈。

如果軟技能可以被量化評(píng)估,那學(xué)校教什么就會(huì)變。

現(xiàn)在學(xué)校考什么?知識(shí)、公式、標(biāo)準(zhǔn)答案。因?yàn)橹挥羞@些東西能標(biāo)準(zhǔn)化測(cè)量。

但如果有一天,協(xié)作力、沖突解決能力、創(chuàng)造力都能被精準(zhǔn)打分了,課程設(shè)計(jì)的底層邏輯就會(huì)被改寫。

企業(yè)招聘也一樣。

今天的招聘流程看學(xué)歷、看簡(jiǎn)歷、看面試官的直覺(jué)。

如果AI可以在沉浸式模擬中直接觀察一個(gè)人處理沖突的能力,并給出可量化的分?jǐn)?shù),面試這件事本身就會(huì)被重新定義。

個(gè)人成長(zhǎng)也一樣。

你的溝通能力、你的領(lǐng)導(dǎo)力,第一次有了可視化的進(jìn)步曲線。

不再是「我覺(jué)得自己變強(qiáng)了」,而是「系統(tǒng)顯示你的沖突解決得分從上個(gè)月的63提升到了71」。

這就是Vantage這個(gè)小實(shí)驗(yàn)背后的大故事:當(dāng)「最難考的能力」變得可考,教育評(píng)估的邊界就會(huì)被重新劃定。

未來(lái)的考試

可能是讓你跟AI吵一架

當(dāng)AI能制造沖突、觀察行為、提取證據(jù)、逐條打分,「考試」這個(gè)詞的含義就永遠(yuǎn)變了。

它不再是你對(duì)著一張?jiān)嚲愍?dú)自?shī)^斗,可能是你走進(jìn)一個(gè)房間,面對(duì)一群不好對(duì)付的人,然后做你自己。

下一個(gè)被AI考的軟技能會(huì)是什么?

也許是談判,也許是共情,也許是你最不想被打分的那個(gè)東西。

當(dāng)AI不僅能替代你的硬技能,還能給你的軟技能精準(zhǔn)打分的時(shí)候,你還覺(jué)得「情商」「協(xié)作力」是不需要認(rèn)真對(duì)待的東西嗎?

參考資料:

https://research.google/blog/towards-developing-future-ready-skills-with-generative-ai/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
Shams:華子最快G3復(fù)出東契奇仍未對(duì)抗訓(xùn)練 掘金僅約基奇是非賣品

Shams:華子最快G3復(fù)出東契奇仍未對(duì)抗訓(xùn)練 掘金僅約基奇是非賣品

羅說(shuō)NBA
2026-05-04 05:26:15
黃金造假內(nèi)幕曝光,大批人血本無(wú)歸

黃金造假內(nèi)幕曝光,大批人血本無(wú)歸

新浪財(cái)經(jīng)
2026-05-03 16:11:30
CCTV-6電影頻道的“寶藏主持”李丹,173cm的高挑身形,自帶柔光

CCTV-6電影頻道的“寶藏主持”李丹,173cm的高挑身形,自帶柔光

娛你同歡
2026-05-03 22:49:46
NBA東西部4強(qiáng)產(chǎn)生!半決賽晉級(jí)概率如下:雷霆85% 騎士55%馬刺70%

NBA東西部4強(qiáng)產(chǎn)生!半決賽晉級(jí)概率如下:雷霆85% 騎士55%馬刺70%

小徐講八卦
2026-05-04 10:53:50
劇情反轉(zhuǎn):多方分析指出,烏克蘭無(wú)人機(jī)擊中的蘇-57可能是原型機(jī)

劇情反轉(zhuǎn):多方分析指出,烏克蘭無(wú)人機(jī)擊中的蘇-57可能是原型機(jī)

零度Military
2026-05-03 18:03:25
速度真快,直-21重型武裝直升機(jī)再曝新圖,或?qū)⒑芸炝慨a(chǎn)

速度真快,直-21重型武裝直升機(jī)再曝新圖,或?qū)⒑芸炝慨a(chǎn)

愛(ài)吃醋的貓咪
2026-05-03 21:27:43
又整容了?李嫣疑進(jìn)行第四次手術(shù),公開(kāi)術(shù)后畫面,鼻子嘴巴纏滿紗布

又整容了?李嫣疑進(jìn)行第四次手術(shù),公開(kāi)術(shù)后畫面,鼻子嘴巴纏滿紗布

八卦王者
2026-05-04 09:19:07
江青臨終前,提出去毛主席紀(jì)念堂看主席最后一眼,中央:不準(zhǔn)她去

江青臨終前,提出去毛主席紀(jì)念堂看主席最后一眼,中央:不準(zhǔn)她去

輿圖看世界
2026-04-30 15:10:04
遼寧凌海一女子駕車雙手離開(kāi)方向盤,半個(gè)身子探出車窗外,疑似曾因同樣行為被處罰,交警回應(yīng):當(dāng)事人或存精神異常,案件正偵辦中

遼寧凌海一女子駕車雙手離開(kāi)方向盤,半個(gè)身子探出車窗外,疑似曾因同樣行為被處罰,交警回應(yīng):當(dāng)事人或存精神異常,案件正偵辦中

揚(yáng)子晚報(bào)
2026-05-04 12:17:25
最后一輛 Model X 下線,車身簽滿特斯拉員工名字!

最后一輛 Model X 下線,車身簽滿特斯拉員工名字!

新浪財(cái)經(jīng)
2026-05-03 13:52:00
廣東晉級(jí)八強(qiáng),能淘汰北京隊(duì)嗎?聽(tīng)聽(tīng)粵媒京媒怎么說(shuō),一隊(duì)被看衰

廣東晉級(jí)八強(qiáng),能淘汰北京隊(duì)嗎?聽(tīng)聽(tīng)粵媒京媒怎么說(shuō),一隊(duì)被看衰

南海浪花
2026-05-04 10:26:10
魔幻的韓國(guó)股市,父母給嬰兒開(kāi)戶買股票

魔幻的韓國(guó)股市,父母給嬰兒開(kāi)戶買股票

吳曉波頻道
2026-05-04 08:35:15
5月4日世乒賽:賽程火熱來(lái)襲!國(guó)乒"十萬(wàn)火急",中韓或再度硬碰硬

5月4日世乒賽:賽程火熱來(lái)襲!國(guó)乒"十萬(wàn)火急",中韓或再度硬碰硬

八斗小先生
2026-05-04 11:18:55
爆料:伊朗暗示妥協(xié)

爆料:伊朗暗示妥協(xié)

魯中晨報(bào)
2026-05-02 19:43:45
朝鮮援俄傷亡數(shù)據(jù)曝光,1.4萬(wàn)精銳傷亡過(guò)半,紀(jì)念墻畫面慘烈

朝鮮援俄傷亡數(shù)據(jù)曝光,1.4萬(wàn)精銳傷亡過(guò)半,紀(jì)念墻畫面慘烈

不同時(shí)代的魅力
2026-05-03 12:09:56
殺人誅心!阿倫化身惡霸怒罵巴雷特:快滾回家吧你!門在那邊!

殺人誅心!阿倫化身惡霸怒罵巴雷特:快滾回家吧你!門在那邊!

籃球神吐槽
2026-05-04 11:55:07
為什么剛炒完菜不能用水沖鐵鍋?若不是醫(yī)生勸告,差點(diǎn)犯了大錯(cuò)!

為什么剛炒完菜不能用水沖鐵鍋?若不是醫(yī)生勸告,差點(diǎn)犯了大錯(cuò)!

芹姐說(shuō)生活
2026-05-03 23:11:32
蔡少芬曬五一姐妹聚會(huì)吃腸粉,54歲洪欣染一頭黃發(fā)狀態(tài)最好!

蔡少芬曬五一姐妹聚會(huì)吃腸粉,54歲洪欣染一頭黃發(fā)狀態(tài)最好!

手工制作阿殲
2026-05-04 05:30:27
小寶與王某雷,誰(shuí)探訪花的數(shù)量更多?

小寶與王某雷,誰(shuí)探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
“藏南”的管轄現(xiàn)狀,印度在藏南囤積重兵,中國(guó)還能收回藏南嗎?

“藏南”的管轄現(xiàn)狀,印度在藏南囤積重兵,中國(guó)還能收回藏南嗎?

共工之錨
2026-04-28 23:29:16
2026-05-04 13:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15127文章數(shù) 66834關(guān)注度
往期回顧 全部

科技要聞

OpenAI“復(fù)活”了QQ寵物,網(wǎng)友直接玩瘋

頭條要聞

媒體:見(jiàn)東南亞請(qǐng)求中國(guó)賣石油 日本罕見(jiàn)向俄羅斯購(gòu)買

頭條要聞

媒體:見(jiàn)東南亞請(qǐng)求中國(guó)賣石油 日本罕見(jiàn)向俄羅斯購(gòu)買

體育要聞

曼聯(lián)3-2雙殺利物浦!提前三輪鎖定歐冠資格 梅努制勝

娛樂(lè)要聞

嚴(yán)浩翔新歌,父母離婚17年矛盾升級(jí)

財(cái)經(jīng)要聞

魔幻的韓國(guó)股市,父母給嬰兒開(kāi)戶買股票

汽車要聞

同比大漲190% 方程豹4月銷量29138臺(tái)

態(tài)度原創(chuàng)

親子
游戲
本地
手機(jī)
公開(kāi)課

親子要聞

辛者庫(kù)幼兒園反轉(zhuǎn)!孩子淪為免費(fèi)勞力,被奴役干活,寶媽怒退園?

索尼PS國(guó)區(qū)運(yùn)營(yíng)貼臉開(kāi)大:在我這里可是完全不一樣哦!

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

手機(jī)要聞

蘋果傳來(lái)兩個(gè)激進(jìn)的消息,國(guó)產(chǎn)安卓品牌苦日子來(lái)也

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版