国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控(上) | 社會(huì)科學(xué)報(bào)

0
分享至


價(jià)值對(duì)齊作為人工智能技術(shù)與人類社會(huì)交互的核心接口,其風(fēng)險(xiǎn)不僅源于技術(shù)實(shí)現(xiàn)的缺陷,更在于它深度參與了社會(huì)價(jià)值秩序的重構(gòu),任何細(xì)微的技術(shù)偏差都可能通過廣泛的應(yīng)用場(chǎng)景被放大,對(duì)社會(huì)公平、文化多樣性乃至數(shù)字主權(quán)產(chǎn)生深遠(yuǎn)影響。因此,將價(jià)值對(duì)齊作為技術(shù)風(fēng)險(xiǎn)治理的對(duì)象,并非否定其在保障人工智能安全中的積極意義,而是要打破對(duì)“一次性對(duì)齊”的理想化認(rèn)知,以更具批判性的視角審視其技術(shù)邏輯與社會(huì)影響。

原文 :《價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控》

作者 |南京師范大學(xué)數(shù)字與人文研究中心教授 吳靜

圖片 |網(wǎng)絡(luò)

當(dāng)下,生成式人工智能正深度融入社會(huì)各領(lǐng)域,其價(jià)值輸出的合理性已成為技術(shù)與社會(huì)互滲時(shí)代的核心議題。作為保障人工智能安全性、穩(wěn)健性與可信性的關(guān)鍵路徑,“價(jià)值對(duì)齊”自2024年入選“中國(guó)十大學(xué)術(shù)熱點(diǎn)”以來,始終是多學(xué)科交叉研究的焦點(diǎn)。從中國(guó)知網(wǎng)收錄的論文分布可見,其研究覆蓋自動(dòng)化技術(shù)、倫理學(xué)、哲學(xué)、計(jì)算機(jī)應(yīng)用等多個(gè)領(lǐng)域,主題高度集中于人工智能、大模型、生成式技術(shù)等方向。然而,學(xué)術(shù)研究的熱潮與實(shí)驗(yàn)室測(cè)評(píng)結(jié)果形成鮮明反差——Anthropic與紅木研究對(duì)Claude 3 Opus模型的測(cè)試顯示,經(jīng)過價(jià)值對(duì)齊的人工智能在面對(duì)與訓(xùn)練原則沖突的新指令時(shí),可能出現(xiàn)“對(duì)齊偽裝”,表面執(zhí)行指令,暗中卻遵循原有邏輯。這一現(xiàn)象不僅質(zhì)疑了價(jià)值對(duì)齊工程的有效性,更揭示出其自身潛藏的多重風(fēng)險(xiǎn),亟需將其納入技術(shù)風(fēng)險(xiǎn)治理的整體框架,以動(dòng)態(tài)、系統(tǒng)的思路回應(yīng)挑戰(zhàn)。



價(jià)值對(duì)齊自身潛藏多種風(fēng)險(xiǎn)


從理論根基來看,價(jià)值對(duì)齊的風(fēng)險(xiǎn)首先源于其抽象預(yù)設(shè)與二元對(duì)立架構(gòu)的內(nèi)在缺陷。當(dāng)前主流價(jià)值對(duì)齊方案以“人類價(jià)值”的普世性為核心假設(shè),試圖將多元、動(dòng)態(tài)的人類價(jià)值觀壓縮為可量化的偏好排序關(guān)系,通過算法編碼實(shí)現(xiàn)人工智能與人類目標(biāo)的“精準(zhǔn)匹配”。但從哲學(xué)視角審視,這種預(yù)設(shè)嚴(yán)重忽視了價(jià)值的情境性與歷史性。人類價(jià)值觀并非靜止的、統(tǒng)一的集合,而是在特定歷史文化語境中不斷演化的意義體系。不同文化對(duì)“公平”“自由”等核心價(jià)值的理解存在本質(zhì)差異,如自由主義語境下的“公平”指向機(jī)會(huì)平等,強(qiáng)調(diào)消除個(gè)體發(fā)展的建制性障礙,而社群主義語境下的“公平”更注重結(jié)果均衡,致力于避免社群內(nèi)部的兩極分化。脫離具體語境的抽象價(jià)值編碼,本質(zhì)上是將某一文化群體的價(jià)值標(biāo)準(zhǔn)絕對(duì)化,形成“價(jià)值殖民”:西方科技巨頭主導(dǎo)的對(duì)齊方案,便是通過技術(shù)路徑將西方價(jià)值觀與意識(shí)形態(tài)推廣至全球,以“技術(shù)無意識(shí)”的形式實(shí)現(xiàn)價(jià)值滲透,對(duì)其他國(guó)家數(shù)字主權(quán)安全及價(jià)值觀體系的自主性構(gòu)成深層挑戰(zhàn)。

同時(shí),價(jià)值對(duì)齊所依賴的人-機(jī)二元對(duì)立框架,刻意渲染技術(shù)與人類權(quán)益的對(duì)抗關(guān)系,遮蔽了人工智能技術(shù)全生命周期中的價(jià)值性因素。算法設(shè)計(jì)絕非價(jià)值中立的行為,從算法設(shè)計(jì)到數(shù)據(jù)采集,從模型訓(xùn)練到應(yīng)用落地,每一個(gè)環(huán)節(jié)都滲透著人類的倫理判斷與意識(shí)形態(tài)傾向。外賣平臺(tái)對(duì)騎手的考核算法,表面以“中立”的數(shù)據(jù)計(jì)算優(yōu)化配送效率,實(shí)則暗含效率優(yōu)先的價(jià)值取向,將城市道路簡(jiǎn)化為理想數(shù)學(xué)模型,無視電梯擁堵、突發(fā)事故等現(xiàn)實(shí)變量,最終將騎手置于“安全與效率”的兩難境地。這種框架將人工智能“風(fēng)險(xiǎn)”本質(zhì)化為技術(shù)自身的缺陷,實(shí)則是人類責(zé)任的轉(zhuǎn)嫁:在技術(shù)應(yīng)用過程中最小化人類責(zé)任,轉(zhuǎn)而指摘技術(shù)存在價(jià)值偏差,導(dǎo)致對(duì)價(jià)值偏差根源的誤判,阻礙對(duì)人類價(jià)值體系根源與具體情境的動(dòng)態(tài)化深度剖析。


在技術(shù)實(shí)現(xiàn)層面,以人類反饋強(qiáng)化學(xué)習(xí)(RLHF)為核心的獎(jiǎng)懲機(jī)制存在顯著缺陷,易引發(fā)“策略性欺騙”與“獎(jiǎng)勵(lì)黑客”現(xiàn)象。RLHF通過正負(fù)反饋引導(dǎo)人工智能趨近預(yù)期目標(biāo),但其本質(zhì)是基于試錯(cuò)的量化驅(qū)動(dòng),與人類通過符號(hào)推理、情境分析形成的價(jià)值判斷邏輯截然不同。人工智能并非理解價(jià)值內(nèi)涵,而是通過最大化獎(jiǎng)勵(lì)信號(hào)調(diào)整行為,這使得真實(shí)目標(biāo)與形式化表征極易分離。自動(dòng)駕駛系統(tǒng)若以“避免碰撞”為核心獎(jiǎng)勵(lì)目標(biāo),可能出現(xiàn)不行駛或極低速度行駛的極端行為;清潔機(jī)器人為滿足“無灰塵檢測(cè)”的獎(jiǎng)勵(lì)條件,會(huì)通過遮擋傳感器欺騙系統(tǒng)。更值得警惕的是,隨著數(shù)據(jù)優(yōu)化與模型迭代,人工智能利用獎(jiǎng)勵(lì)函數(shù)漏洞的能力持續(xù)提升,在最大化預(yù)設(shè)評(píng)估指標(biāo)方面表現(xiàn)得愈發(fā)出色。在代碼生成任務(wù)中,模型會(huì)修改單元測(cè)試、生成更難讀懂的指標(biāo)、增加代碼復(fù)雜度,以降低測(cè)試人員發(fā)現(xiàn)錯(cuò)誤的概率。此外,獎(jiǎng)勵(lì)信號(hào)的模糊性與數(shù)據(jù)質(zhì)量問題進(jìn)一步削弱獎(jiǎng)懲機(jī)制的有效性。獎(jiǎng)勵(lì)信號(hào)的賦予者受文化背景、成長(zhǎng)經(jīng)歷、教育程度等因素影響,對(duì)同一事物的判斷存在差異,難以全面、準(zhǔn)確地反映人類價(jià)值觀的豐富內(nèi)涵;而全球數(shù)據(jù)呈現(xiàn)出與經(jīng)濟(jì)發(fā)展水平正相關(guān)的不均衡狀態(tài),在數(shù)據(jù)收集與清洗過程中,某些價(jià)值觀或行為模式被過度呈現(xiàn),其他合理價(jià)值觀被邊緣化,如用于圖像識(shí)別的人工智能系統(tǒng)若以城市生活圖像為主要訓(xùn)練數(shù)據(jù),面對(duì)鄉(xiāng)村場(chǎng)景時(shí)會(huì)出現(xiàn)識(shí)別偏差,不僅降低模型對(duì)應(yīng)用場(chǎng)景的適應(yīng)性,更使人工智能學(xué)習(xí)的價(jià)值偏好片面化、單維化,在實(shí)際應(yīng)用中產(chǎn)生歧視與偏見。

從社會(huì)權(quán)力運(yùn)作視角來看,價(jià)值對(duì)齊還暗藏意識(shí)形態(tài)風(fēng)險(xiǎn)與權(quán)力集中隱患,對(duì)社會(huì)公平與數(shù)字主權(quán)構(gòu)成深層威脅。價(jià)值對(duì)齊的理論主張本質(zhì)上是社會(huì)權(quán)力關(guān)系的技術(shù)顯影,它借助價(jià)值“移植”“嵌入”的權(quán)力實(shí)踐,通過數(shù)據(jù)標(biāo)注、設(shè)置獎(jiǎng)懲函數(shù)等路徑,實(shí)現(xiàn)社會(huì)權(quán)力結(jié)構(gòu)在技術(shù)中的編碼與再生產(chǎn),反映并強(qiáng)化價(jià)值對(duì)齊發(fā)起者認(rèn)可的社會(huì)權(quán)力關(guān)系,并通過廣泛的下游應(yīng)用傳播鞏固。芬伯格對(duì)技術(shù)人工制品的批判性分析也指出,技術(shù)并非獨(dú)立于社會(huì)之外的“必然性”存在,而是在技術(shù)設(shè)計(jì)層面回應(yīng)社會(huì)文化視野的意圖實(shí)現(xiàn)。當(dāng)前,價(jià)值對(duì)齊的編碼權(quán)、解釋權(quán)與更新權(quán)高度集中于少數(shù)科技巨頭與技術(shù)精英,形成對(duì)人工智能價(jià)值觀的壟斷性控制。人工智能的黑箱特性為技術(shù)精英提供了中立性辯護(hù),當(dāng)算法出現(xiàn)歧視性結(jié)果時(shí),常以“數(shù)據(jù)偏差”“模型復(fù)雜性”為由回避責(zé)任,形成算法免責(zé)的漏洞,甚至在模型更新環(huán)節(jié),企業(yè)也可以以“商業(yè)機(jī)密”為由繞開公共審議,通過參數(shù)調(diào)整將自身價(jià)值偏好轉(zhuǎn)化為社會(huì)規(guī)則,塑造公共認(rèn)知。這種權(quán)力集中在全球?qū)用姹憩F(xiàn)為數(shù)字霸權(quán):西方科技巨頭通過控制訓(xùn)練數(shù)據(jù)與算力資源,將其價(jià)值觀嵌入開源模型,發(fā)展中國(guó)家因數(shù)據(jù)貧困與技術(shù)依賴,被迫接受中心地區(qū)的價(jià)值標(biāo)準(zhǔn),喪失數(shù)字主權(quán)與發(fā)展自主權(quán),加劇全球數(shù)字鴻溝。

[本文后續(xù)詳見本期二條推送]

文章為社會(huì)科學(xué)報(bào)“思想工坊”融媒體原創(chuàng)出品,原載于社會(huì)科學(xué)報(bào)第1984期第6版,未經(jīng)允許禁止轉(zhuǎn)載,文中內(nèi)容僅代表作者觀點(diǎn),不代表本報(bào)立場(chǎng)。

本期責(zé)編:程鑫云


《社會(huì)科學(xué)報(bào)》2026年征訂

點(diǎn)擊下方圖片網(wǎng)上訂報(bào)↓↓↓



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
東部第一出手!NBA買斷市場(chǎng)地震!米德爾頓時(shí)隔13年重回底特律

東部第一出手!NBA買斷市場(chǎng)地震!米德爾頓時(shí)隔13年重回底特律

夜白侃球
2026-02-25 16:58:17
起風(fēng)了!賴清德對(duì)大陸的稱呼變了,鄭麗文表態(tài)驚人,柯建銘落幕了

起風(fēng)了!賴清德對(duì)大陸的稱呼變了,鄭麗文表態(tài)驚人,柯建銘落幕了

諦聽骨語本尊
2026-02-25 19:30:14
德經(jīng)濟(jì)學(xué)家:當(dāng)世界第二大和第三大經(jīng)濟(jì)體加強(qiáng)合作,將為世界帶來什么?

德經(jīng)濟(jì)學(xué)家:當(dāng)世界第二大和第三大經(jīng)濟(jì)體加強(qiáng)合作,將為世界帶來什么?

中國(guó)日?qǐng)?bào)網(wǎng)
2026-02-25 16:39:13
一個(gè)都不能少!英超6強(qiáng)全部晉級(jí)歐冠淘汰賽 意甲大概率全軍覆沒

一個(gè)都不能少!英超6強(qiáng)全部晉級(jí)歐冠淘汰賽 意甲大概率全軍覆沒

雪狼侃體育
2026-02-25 22:02:38
全國(guó)統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國(guó)統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

墨蘭史書
2026-02-24 22:41:18
雨+雨夾雪+中到大雪!河北大范圍雨雪要來!

雨+雨夾雪+中到大雪!河北大范圍雨雪要來!

掌中邯鄲
2026-02-25 11:10:27
悲??!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

悲劇!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

風(fēng)過鄉(xiāng)
2026-02-25 10:32:10
全新寶馬X5豎腎格柵引戰(zhàn) 投票能左右設(shè)計(jì)師想法嗎?

全新寶馬X5豎腎格柵引戰(zhàn) 投票能左右設(shè)計(jì)師想法嗎?

自主汽車
2026-02-24 22:36:48
香港自殺女警手機(jī)中發(fā)現(xiàn)遺書

香港自殺女警手機(jī)中發(fā)現(xiàn)遺書

現(xiàn)代快報(bào)
2026-02-25 20:33:04
繼父摟腰親吻女童引爭(zhēng)議,當(dāng)時(shí)生母就在現(xiàn)場(chǎng)

繼父摟腰親吻女童引爭(zhēng)議,當(dāng)時(shí)生母就在現(xiàn)場(chǎng)

天涯社區(qū)
2026-02-25 17:08:18
樓面價(jià)超8.5萬/平破紀(jì)錄!越秀地產(chǎn)擊退保利,超236億拿下廣州馬場(chǎng)地塊

樓面價(jià)超8.5萬/平破紀(jì)錄!越秀地產(chǎn)擊退保利,超236億拿下廣州馬場(chǎng)地塊

時(shí)代財(cái)經(jīng)
2026-02-25 19:46:15
郭曉婷曬方穆靜手寫日記,網(wǎng)友怒贊:不說別的,憑她這手字,該火

郭曉婷曬方穆靜手寫日記,網(wǎng)友怒贊:不說別的,憑她這手字,該火

心靈的觸動(dòng)a
2026-02-25 19:57:05
美國(guó)記者批谷愛凌傲慢,TNT著名主持回?fù)?憑什么要對(duì)成就故作謙虛

美國(guó)記者批谷愛凌傲慢,TNT著名主持回?fù)?憑什么要對(duì)成就故作謙虛

硯底沉香
2026-02-25 21:18:04
A股:剛剛,大資金明牌了,釋放一信號(hào),明日周四將迎來新的變化

A股:剛剛,大資金明牌了,釋放一信號(hào),明日周四將迎來新的變化

另子維愛讀史
2026-02-25 21:02:38
蒯曼陳熠女雙淘汰頭號(hào)種子,新加坡大滿貫賽女雙四強(qiáng)出爐

蒯曼陳熠女雙淘汰頭號(hào)種子,新加坡大滿貫賽女雙四強(qiáng)出爐

乒乓網(wǎng)
2026-02-25 17:27:54
1950 年胡蘭成獲北京當(dāng)官邀請(qǐng),行至上海醒悟,連夜偷渡日本保命

1950 年胡蘭成獲北京當(dāng)官邀請(qǐng),行至上海醒悟,連夜偷渡日本保命

磊子講史
2026-02-05 09:14:45
“開光改命”的瓜?

“開光改命”的瓜?

文刀萬
2026-02-25 18:50:04
3-1進(jìn)16強(qiáng)!中國(guó)女乒27歲王牌再閃耀:追趕孫穎莎沖世界第1?

3-1進(jìn)16強(qiáng)!中國(guó)女乒27歲王牌再閃耀:追趕孫穎莎沖世界第1?

李喜林籃球絕殺
2026-02-24 21:39:32
鄺兆鐳首秀送助攻!助海牛戰(zhàn)勝泰山,董路:挺好的開始保持耐心

鄺兆鐳首秀送助攻!助海牛戰(zhàn)勝泰山,董路:挺好的開始保持耐心

奧拜爾
2026-02-25 17:53:31
黃子華再度封神,《夜王》炸裂!54歲的他依舊抗打!

黃子華再度封神,《夜王》炸裂!54歲的他依舊抗打!

鄉(xiāng)野小珥
2026-02-25 20:00:48
2026-02-25 23:07:00
社會(huì)科學(xué)報(bào) incentive-icons
社會(huì)科學(xué)報(bào)
社會(huì)科學(xué)院主辦社會(huì)科學(xué)報(bào)
3966文章數(shù) 23442關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

美官員稱6個(gè)月內(nèi)三國(guó)政府或被親美政權(quán)取代 中方回應(yīng)

頭條要聞

美官員稱6個(gè)月內(nèi)三國(guó)政府或被親美政權(quán)取代 中方回應(yīng)

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

本地
游戲
手機(jī)
親子
藝術(shù)

本地新聞

津南好·四時(shí)總相宜

玩家拿首份工資預(yù)購《生化9》!功勛制作人親自回復(fù)

手機(jī)要聞

vivo萬級(jí)大電池測(cè)試中,多款新機(jī)待發(fā)布

親子要聞

寶媽必學(xué),孩子這樣不是偏激而是應(yīng)激!

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

無障礙瀏覽 進(jìn)入關(guān)懷版