国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

線性回歸被低估了47年,5種解法卻指向同一答案

0
分享至


1977年,統(tǒng)計學(xué)家們還在為最小二乘法的收斂速度爭論不休時,沒人想到這個"基礎(chǔ)算法"會在2024年成為AI領(lǐng)域的隱形地基。OpenAI的論文里藏著它的影子,Google的推薦系統(tǒng)里跑著它的變體——但95%的從業(yè)者只會調(diào)model.fit()。

今天用5種完全不同的數(shù)學(xué)工具解同一道題。它們來自線性代數(shù)、微積分、數(shù)值分析、概率論、貝葉斯統(tǒng)計五個分支,最終卻收斂到同一組參數(shù)。這種"殊途同歸"的詭異美感,像極了不同編程語言編譯后跑在同一臺機(jī)器上。

方法一:閉式解——線性代數(shù)的暴力美學(xué)

最直觀的思路:把誤差平方和寫成矩陣形式,對β求導(dǎo),令導(dǎo)數(shù)為零。

推導(dǎo)過程像解一道高中數(shù)學(xué)題:殘差向量r = Xβ ? y,目標(biāo)函數(shù)是r?r。展開后對β求導(dǎo),得到著名的正規(guī)方程(Normal Equation):

β? = (X?X)?1X?y

三行代碼搞定,但陷阱藏在括號里。X?X不可逆怎么辦?特征高度相關(guān)時,這個逆矩陣就像除以零——數(shù)值上爆炸,統(tǒng)計上意味著參數(shù)估計的方差無限大。這也是嶺回歸(Ridge Regression)誕生的直接動機(jī):給對角線加個λI,相當(dāng)于在分母里墊一層緩沖墊。

原文作者用50個樣本點測試,閉式解給出的結(jié)果是y = 7.03 + 2.49x。真實值是7和2.5,誤差來自那坨人為注入的高斯噪聲。這種"幾乎猜中"的精度,正是最小二乘法在正態(tài)誤差假設(shè)下的最優(yōu)性保證——高斯-馬爾可夫定理的遺產(chǎn)。

方法二:梯度下降——微積分的迭代哲學(xué)

如果矩陣求逆讓你不安,或者數(shù)據(jù)量大到X?X根本塞不進(jìn)內(nèi)存,梯度下降是更務(wù)實的選擇。

核心洞察:損失函數(shù)L(β) = ||Xβ ? y||2是一個凸函數(shù),碗狀的。站在碗沿任意一點,沿著最陡的方向往下走,終將滑到碗底。這個"最陡方向"就是梯度?L = (2/n)X?(Xβ ? y)。

原文的實現(xiàn)里,學(xué)習(xí)率設(shè)為0.02,迭代1000次。我把它跑了一遍:前100次參數(shù)還在震蕩,200次后斜率β?已經(jīng)逼近2.5,截距β?的收斂稍慢——這是因為兩個參數(shù)的尺度不同,X_raw在0到10之間,而截距項對應(yīng)的全1列沒有變化。標(biāo)準(zhǔn)的特征縮放(Feature Scaling)能加速這個過程,但作者故意沒做,讓你看清原始形態(tài)的笨拙。

一個有趣的觀察:梯度下降的軌跡在參數(shù)空間里畫出一條曲線,而閉式解是直線飛過去。但終點重合。這種"過程不同,結(jié)果一致"的特性,在優(yōu)化理論里叫"全局凸性"的饋贈。神經(jīng)網(wǎng)絡(luò)可沒這么仁慈,它的損失曲面布滿溝壑與陷阱。

方法三:SVD偽逆——數(shù)值分析的保守主義

閉式解在數(shù)學(xué)上優(yōu)雅,在計算機(jī)里危險。矩陣求逆的數(shù)值穩(wěn)定性像走鋼絲,條件數(shù)(Condition Number)高的矩陣會讓浮點誤差放大成千上萬倍。

奇異值分解(Singular Value Decomposition,SVD)提供了一條更穩(wěn)健的路。把X拆成UΣV?,其中Σ是對角矩陣,對角線元素叫奇異值。偽逆X? = VΣ?U?,其中Σ?把小的奇異值置零后再取倒數(shù)。這種"截斷"操作自動完成了正則化:那些幾乎為零的奇異值,對應(yīng)著數(shù)據(jù)中的噪聲方向,直接扔掉比強(qiáng)行求逆更安全。

原文代碼只有兩行:U, s, Vt = np.linalg.svd(X),然后beta_svd = Vt.T @ np.diag(1/s) @ U.T @ y。結(jié)果與前兩種方法在小數(shù)點后四位一致。NumPy的lstsq函數(shù)內(nèi)部就是走的這條路——它默認(rèn)你更關(guān)心正確性而非數(shù)學(xué)潔癖。

這里藏著工程與理論的永恒張力:數(shù)學(xué)家想要精確解,數(shù)值分析師想要"在浮點精度內(nèi)正確"的解。SVD是后者的妥協(xié)藝術(shù)。

方法四:矩陣的Moore-Penrose條件——代數(shù)的公理化視角

前三種方法都在算β?,但第四種方法問的是:什么樣的矩陣能被稱為"逆"的推廣?

Moore和Penrose在1950年代給出了四個公理:AXA=A,XAX=X,(AX)?=AX,(XA)?=XA。滿足這四條的X就是A的偽逆A?。SVD構(gòu)造只是其中一種實現(xiàn),但這四個條件本身定義了一類解的最優(yōu)性——最小范數(shù)最小二乘解。

當(dāng)X列不滿秩時(比如兩個特征完全線性相關(guān)),最小二乘解有無窮多個。Moore-Penrose偽逆挑出其中范數(shù)最小的那個,相當(dāng)于在解空間里加了"偏好簡潔"的先驗。這種公理化思維在機(jī)器學(xué)習(xí)里無處不在:支持向量機(jī)的最大間隔、稀疏表示的L1正則,都是把某種"偏好"寫成數(shù)學(xué)約束。


原文的實現(xiàn)直接調(diào)np.linalg.pinv(X) @ y,結(jié)果依然一致。但知道它滿足哪四條公理,和把它當(dāng)黑箱調(diào)用,是兩種完全不同的認(rèn)知深度。

方法五:貝葉斯視角——概率論的統(tǒng)一框架

前四種方法都是頻率學(xué)派的:β是固定但未知的常數(shù),數(shù)據(jù)是隨機(jī)的。貝葉斯學(xué)派翻轉(zhuǎn)了這個設(shè)定:β本身是隨機(jī)變量,數(shù)據(jù)只是更新我們信念的證據(jù)。

假設(shè)先驗p(β) ~ N(0, λ?1I),似然p(y|X,β) ~ N(Xβ, σ2I)。貝葉斯定理給出后驗p(β|y,X) ∝ p(y|X,β)p(β)。取對數(shù)后,最大化后驗等價于最小化:

||y ? Xβ||2 + λ||β||2

這就是帶L2正則化的最小二乘,λ=0時退化為普通最小二乘。正則化系數(shù)λ在這里有了概率解釋:先驗分布的精度(方差的倒數(shù))。λ越大,先驗越"頑固",估計值越向零收縮。

原文沒有展開完整的MCMC采樣,而是直接給出了最大后驗估計(MAP)的閉式解:β? = (X?X + λI)?1X?y。當(dāng)λ→0時,這個式子趨近于正規(guī)方程。五種方法在此刻握手——貝葉斯框架吞下了前四種作為特例。

這種統(tǒng)一性不是巧合。指數(shù)族分布的共軛先驗、凸優(yōu)化的對偶理論、希爾伯特空間的投影定理,背后是同一種幾何:在某種度量下找最近點。最小二乘的"最小"是歐氏距離,核方法把它換成RKHS范數(shù),Wasserstein生成對抗網(wǎng)絡(luò)又換成最優(yōu)傳輸距離。換湯不換藥,藥是幾何。

五種解法跑完,參數(shù)估計都在7.0和2.5附近徘徊。差異只在小數(shù)點后四位,來自浮點精度和收斂閾值。這種"魯棒性"本身就是信號:線性回歸的解結(jié)構(gòu)穩(wěn)定,不像深度學(xué)習(xí)那樣對初始化、學(xué)習(xí)率、批量大小極度敏感。

但穩(wěn)定也意味著天花板。原文作者埋了一個伏筆:所有方法都假設(shè)線性關(guān)系+高斯噪聲。違反這兩個假設(shè)時,五種方法的"一致性"會瞬間瓦解——閉式解不再最優(yōu),梯度下降可能收斂到局部極小,貝葉斯后驗可能是多峰的。這時候你需要廣義線性模型、穩(wěn)健回歸、或者干脆放棄參數(shù)方法。

知道一個算法的邊界,比知道它的用法更重要。這是從"調(diào)包俠"到"建模者"的分水嶺。

最后留一個問題:如果你在Jupyter里把這五種方法的中間變量打印出來,會發(fā)現(xiàn)SVD的奇異值里有一個接近10,另一個接近0.5。這個數(shù)量級差異暗示了設(shè)計矩陣的什么結(jié)構(gòu)?提示:想想X的兩列——一列全1,一列0到10均勻分布——它們的"能量"為什么差20倍?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
拔出蘿卜帶出泥!釋永信“開光”內(nèi)幕曝光,這4位女星被流言害慘

拔出蘿卜帶出泥!釋永信“開光”內(nèi)幕曝光,這4位女星被流言害慘

潮鹿逐夢
2026-03-24 12:44:49
我生意失敗向堂哥借十萬,多年后上門還錢,堂嫂說:錢早還了啊

我生意失敗向堂哥借十萬,多年后上門還錢,堂嫂說:錢早還了啊

人間百態(tài)大全
2026-03-24 07:15:03
高興太早,廣東隊大勝四川卻收壞消息,徐杰被坑了

高興太早,廣東隊大勝四川卻收壞消息,徐杰被坑了

宗介說體育
2026-03-26 09:55:35
伊朗外長:美國談?wù)摗罢勁小睙o異于承認(rèn)“失敗”

伊朗外長:美國談?wù)摗罢勁小睙o異于承認(rèn)“失敗”

新華社
2026-03-26 08:07:01
第二個惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡科
2026-02-18 22:03:00
等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

生命之泉的奧秘
2026-03-26 11:44:07
機(jī)構(gòu)對強(qiáng)勢股關(guān)注度持續(xù)提升 29只強(qiáng)勢股獲3家以上機(jī)構(gòu)評級

機(jī)構(gòu)對強(qiáng)勢股關(guān)注度持續(xù)提升 29只強(qiáng)勢股獲3家以上機(jī)構(gòu)評級

證券時報
2026-03-26 07:42:05
1950年女地下黨被捕,槍斃前高呼:我可以招,但我要見哥哥

1950年女地下黨被捕,槍斃前高呼:我可以招,但我要見哥哥

云霄紀(jì)史觀
2026-03-26 11:04:00
14中8轟18+11!騎士首發(fā)要定了,阿特金森二選一,而哈登成受益者

14中8轟18+11!騎士首發(fā)要定了,阿特金森二選一,而哈登成受益者

巴叔GO聊體育
2026-03-26 11:24:35
現(xiàn)場球迷高呼下課!杜鋒臉色難看,賽后回應(yīng)引爭議,廣東尋求改變

現(xiàn)場球迷高呼下課!杜鋒臉色難看,賽后回應(yīng)引爭議,廣東尋求改變

多特體育說
2026-03-26 11:09:21
人狂自有天收

人狂自有天收

李老逵亂擺龍門陣
2025-09-11 09:01:28
全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

夕陽渡史人
2026-01-30 09:47:08
你見過哪些悶聲發(fā)大財?shù)娜耍烤W(wǎng)友:干這個買三套房子,兩個門面

你見過哪些悶聲發(fā)大財?shù)娜??網(wǎng)友:干這個買三套房子,兩個門面

夜深愛雜談
2026-02-01 18:57:04
被忽視的贏家,接連錯過曼聯(lián)和阿森納,32歲技術(shù)扶貧還失敗

被忽視的贏家,接連錯過曼聯(lián)和阿森納,32歲技術(shù)扶貧還失敗

95帕爾馬
2026-03-26 11:35:21
張凌赫搖頭騎馬,搞笑網(wǎng)友評論區(qū)天差地別

張凌赫搖頭騎馬,搞笑網(wǎng)友評論區(qū)天差地別

鄉(xiāng)野小珥
2026-03-26 01:18:21
國足連續(xù)2天滿負(fù)荷訓(xùn)練:戰(zhàn)世界杯參賽隊力爭積分 陣型4231

國足連續(xù)2天滿負(fù)荷訓(xùn)練:戰(zhàn)世界杯參賽隊力爭積分 陣型4231

愛奇藝體育
2026-03-26 11:16:18
以總理下令48小時內(nèi)盡可能多摧毀伊朗軍工設(shè)施,認(rèn)為特朗普的15點計劃未能確保充分遏制伊朗

以總理下令48小時內(nèi)盡可能多摧毀伊朗軍工設(shè)施,認(rèn)為特朗普的15點計劃未能確保充分遏制伊朗

封面新聞
2026-03-26 10:17:05
ESPN:薩拉赫是英超歷史最佳,甚至可以沒有之一

ESPN:薩拉赫是英超歷史最佳,甚至可以沒有之一

懂球帝
2026-03-25 23:20:06
今年“金三銀四”,感覺已經(jīng)消失了。

今年“金三銀四”,感覺已經(jīng)消失了。

放牛娃的遐想
2026-03-26 08:15:54
楊瀚森20+9+5率隊,末節(jié)遭逆轉(zhuǎn)憾負(fù)

楊瀚森20+9+5率隊,末節(jié)遭逆轉(zhuǎn)憾負(fù)

章民解說體育
2026-03-26 11:27:00
2026-03-26 12:20:49
碼上閑敘
碼上閑敘
有態(tài)度網(wǎng)友ytd
528文章數(shù) 3關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

36歲男子辭百萬年薪工作 在電商賣玩具半年賺了300萬

頭條要聞

36歲男子辭百萬年薪工作 在電商賣玩具半年賺了300萬

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
教育
親子
旅游
時尚

數(shù)碼要聞

戴爾發(fā)布MS526C有線鼠標(biāo):集成指紋識別 免密碼登錄Windows

教育要聞

江蘇省2026—2028年度中小學(xué)生競賽活動名單來了!

親子要聞

你娃三歲前已經(jīng)當(dāng)夠大孝子了

旅游要聞

南京珍珠河櫻花滿樹夢幻燦爛

《非窮盡列舉》,好看又絕望

無障礙瀏覽 進(jìn)入關(guān)懷版