国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

拋硬幣連續(xù)出了10次正面?窩要驗(yàn)幣!“賭神”貝葉斯告訴你這幣還真有問(wèn)題

0
分享至

認(rèn)真閱讀下面的文章,并思考文末互動(dòng)提出的問(wèn)題,嚴(yán)格按照互動(dòng):你的答案格式在評(píng)論區(qū)留言,就有機(jī)會(huì)獲得由中信出版集團(tuán)提供的優(yōu)質(zhì)科普書(shū)籍《統(tǒng)計(jì)的藝術(shù)。


如果你已經(jīng)連續(xù)拋出了10次正面,那么下一次最有可能拋出的結(jié)果是什么?貝葉斯定理給出了答案,這不僅適用于拋硬幣,更普遍適用于科學(xué)探索。圖片來(lái)源:Wikipedia

先問(wèn)你一個(gè)問(wèn)題:

假如我拋了一枚硬幣10次,發(fā)現(xiàn)每次都是正面朝上。如果我再拋一次,出現(xiàn)正面的概率是多少?

我(譯者注:作者)經(jīng)常拿這個(gè)問(wèn)題去問(wèn)學(xué)生,無(wú)論是中學(xué)生還是大學(xué)生,甚至去問(wèn)他們的老師。受過(guò)數(shù)學(xué)訓(xùn)練的學(xué)生(通常也包括他們的老師)給出的答案幾乎如出一轍。他們會(huì)說(shuō),下一次拋出正面的概率絕對(duì)是 1/2。他們對(duì)此往往非常篤定,通常還會(huì)搬出那套熟悉的理論,告訴我“硬幣是沒(méi)有記憶的”,或者類似這樣的話。

但如果你去問(wèn)一個(gè)(沒(méi)受過(guò)多少數(shù)學(xué)訓(xùn)練的)賭徒,他們可能會(huì)說(shuō),既然這枚硬幣都已經(jīng)連續(xù)出了那么多次正面,風(fēng)水輪流轉(zhuǎn),下次怎么也該輪到反面了吧!所以,出現(xiàn)正面的概率肯定小于 1/2。

但是,在我看來(lái)(沒(méi)錯(cuò),這確實(shí)常常引發(fā)相當(dāng)激烈的爭(zhēng)論),這兩種答案都錯(cuò)了!事實(shí)上,下一次拋擲出正面的概率非常接近于 1。你沒(méi)看錯(cuò),就是 1。你可能會(huì)問(wèn):“怎么會(huì)這樣?難道我以前學(xué)的數(shù)學(xué)都是錯(cuò)的嗎?”你先別急,咱們理理思路,如果要讓這枚硬幣在下一次拋擲時(shí)出正面的概率是 1/2,前提是它必須是一枚“絕對(duì)公平”的硬幣(也就是每次拋擲出現(xiàn)正反面的可能性完全相等)。可是,我從頭到尾都沒(méi)說(shuō)過(guò)這是一枚公平的硬幣呀!那僅僅是你自己想當(dāng)然的假設(shè)罷了。

你看,明明擺在眼前的是壓倒性的反面證據(jù),你卻依然做出了硬幣是絕對(duì)公平的假設(shè)。仔細(xì)想想,如果一枚硬幣連續(xù)十次拋出正面,那它十有八九不是什么正經(jīng)硬幣。事實(shí)上,如果這枚硬幣真的質(zhì)地均勻,發(fā)生這種情況的概率只有 0.510,也就是 1/1024 ,接近于千分之一的概率。這就意味著,你需要把“連拋十次”作為一個(gè)回合,足足重復(fù)上一千個(gè)回合——也就是總共拋擲 10,000 次,我估摸著這至少得連續(xù)拋上三個(gè)小時(shí),才能有較大的概率見(jiàn)證一次“連續(xù)十次正面”的奇跡。

估計(jì)絕大多數(shù)人扔不到一半就感覺(jué)手酸,早早放棄了。因此,既然我們已經(jīng)親眼看到了硬幣連續(xù)出現(xiàn)了十次正面,一個(gè)非常合理的推斷就是:這枚硬幣肯定不對(duì)勁,它的內(nèi)部可能存在某種偏向性,導(dǎo)致它更容易擲出正面。想通了這一點(diǎn),情況就很明朗了,下一次拋出正面的概率絕對(duì)比 1/2 要高得多。

但是新的問(wèn)題又來(lái)了,到底會(huì)高出多少呢?

我在這里所描述的,其實(shí)正是科學(xué)研究的運(yùn)作方式。假設(shè)我們想要研究某個(gè)系統(tǒng),我們會(huì)先進(jìn)行一系列的觀察,并從中推斷其內(nèi)在可能的機(jī)制。這個(gè)過(guò)程需要我們提出假設(shè),然后用數(shù)據(jù)去檢驗(yàn)這些假設(shè)。一旦確立了假設(shè),我們就可以開(kāi)始做預(yù)測(cè)。但這必須在收集到數(shù)據(jù)之后才能進(jìn)行,而且我們必須非常謹(jǐn)慎,不能在一開(kāi)始就對(duì)系統(tǒng)做出不切實(shí)際的假設(shè)。

這個(gè)道理不僅適用于我們的這枚硬幣,還同樣適用于天氣預(yù)報(bào)、氣候變化預(yù)測(cè),以及應(yīng)對(duì)流行病傳播的決策。它也適用于我們生活中的許多其他方面,無(wú)論是司法系統(tǒng)的運(yùn)轉(zhuǎn),還是我們制定政策(甚至進(jìn)行社會(huì)活動(dòng))的方式。

幸運(yùn)的是,我們有一個(gè)非常強(qiáng)大的工具可以提供幫助,那就是貝葉斯推斷(Bayesian inference)。如今,人工智能、機(jī)器學(xué)習(xí)以及機(jī)器的決策能力正在飛速發(fā)展,而貝葉斯推斷正是這一切的核心。

正面,貝葉斯贏!

老師和學(xué)生有時(shí)會(huì)批評(píng)我的第一個(gè)問(wèn)題過(guò)于模糊。題干中沒(méi)有提供足夠的信息來(lái)得出答案。確實(shí),這肯定無(wú)法作為一道合格的考題,至少在數(shù)學(xué)考試中是不合格的。從某種意義上說(shuō),這種批評(píng)是對(duì)的。但在現(xiàn)實(shí)中,我們經(jīng)常會(huì)面臨類似的情境,不得不依靠做出合理的假設(shè)來(lái)處理問(wèn)題。因此,為了讓這個(gè)問(wèn)題更加嚴(yán)謹(jǐn),我將其重新表述如下:

我有一個(gè)裝了許多硬幣的袋子。其中大部分是質(zhì)地均勻的普通硬幣,拋出正面或反面的概率均為 1/2。然而,有比例為 p(假設(shè) p 的值很?。┑挠矌攀翘厥獾?,它們兩面都是正面。如果拋擲這種硬幣,出現(xiàn)正面的概率就是 1(這里假設(shè)硬幣不會(huì)立在地面上)。我從這個(gè)袋子里隨機(jī)摸出一枚硬幣,連拋 10 次,結(jié)果每次都是正面朝上。那么,下一次拋擲它依然出現(xiàn)正面的概率是多少?


氣象學(xué)依賴于貝葉斯推斷。圖片來(lái)源:Pixabay

在這個(gè)更為嚴(yán)謹(jǐn)?shù)那榫诚拢覀儙缀蹩梢詳喽?,如果硬幣每次都擲出正面,那它極大概率是一枚存在偏向的硬幣(即兩面都是正面的硬幣)。在這種情況下,下一次拋擲肯定還是正面。運(yùn)用貝葉斯推斷這一奇妙的方法,我們可以將這一推論表述得更加精確,甚至還能看出它與比例 p 的大小有著怎樣的關(guān)系。

要做到這一點(diǎn),我們需要引入事件的條件概率(conditional probability)這一概念。在前面設(shè)定的游戲中,存在幾種可能發(fā)生的事件。其一便是“抽中一枚存在偏向的硬幣”這一事件。我們將該事件記為 A,并用 P(A) 來(lái)表示其發(fā)生的概率。將“抽中一枚均勻硬幣”的事件記為 B,并用 P(B) 表示該事件發(fā)生的概率。那么:

我們通常將這種概率稱為先驗(yàn)信息(prior information)。只有在對(duì)這枚硬幣一無(wú)所知的情況下,P (A) = p 這一等式才成立。這是在獲取任何實(shí)測(cè)數(shù)據(jù)之前,硬幣存在偏向的概率。

一旦開(kāi)始拋擲硬幣,我們就會(huì)對(duì)它有更多的了解,并隨之修正先驗(yàn)信息,從而得出關(guān)于該系統(tǒng)的所謂后驗(yàn)知識(shí)(a-posteriori knowledge)。作為人類,我們的大腦時(shí)刻都在經(jīng)歷著這樣的過(guò)程:不斷收集關(guān)于周遭環(huán)境的感官信息,并據(jù)此在腦海中構(gòu)建出對(duì)當(dāng)前狀況的認(rèn)知。這也是機(jī)器進(jìn)行學(xué)習(xí)并更新其對(duì)某個(gè)系統(tǒng)已有知識(shí)的過(guò)程。對(duì)于這類機(jī)器而言,實(shí)現(xiàn)這一過(guò)程的核心工具正是貝葉斯分析(Bayesian analysis)。接下來(lái),就讓我們看看它是如何發(fā)揮作用的。

假設(shè)我們有兩個(gè)事件 A 和 B。條件概率 P(A|B) 指的是在已知事件 B 已經(jīng)發(fā)生的前提下,事件 A 發(fā)生的概率。

舉個(gè)例子,假設(shè)事件 A 為“連續(xù)拋擲 10 次硬幣,每次都是正面朝上”,事件 B 為“我們抽中了一枚兩面都是正面的硬幣”,而事件 C 為“我們抽中了一枚質(zhì)地均勻的普通硬幣”。稍作思考就會(huì)發(fā)現(xiàn):

這是因?yàn)槟敲队矌艃擅娑际钦?,所以它每次拋擲必然都會(huì)出現(xiàn)正面。另外,正如我們?cè)谇懊嬉呀?jīng)計(jì)算過(guò)的,我們還可以得出:

你可以明顯看出,P(A|B) 要比P(A|C) 大得多。

貝葉斯是怎么說(shuō)的

在小學(xué)二年級(jí),我們就學(xué)過(guò)一個(gè)關(guān)于條件概率的通用公式。如果用 P(A and B) 來(lái)表示事件 A 和事件 B 同時(shí)發(fā)生的概率,那么公式就是:

這個(gè)公式可能不是那么一目了然——如果想了解它為什么成立,可以去閱讀相關(guān)的推導(dǎo)文章。

但是,P(A and B) 與 P(B and A) 顯然是同一回事,根據(jù)上述公式,它同樣等于P(B)P(A|B)。這也就意味著:

由中間的等式可得:

這個(gè)結(jié)果就是著名的“貝葉斯定理”(Bayes' theorem)。它由托馬斯·貝葉斯牧師(Revd. Thomas Bayes)提出,并由英國(guó)皇家學(xué)會(huì)(Royal Society)以《論有關(guān)機(jī)遇問(wèn)題的求解》(An Essay towards solving a Problem in the Doctrine of Chances)為題于 1763 年正式發(fā)表。


托馬斯·貝葉斯(1701-1761)

貝葉斯并不算是一位職業(yè)數(shù)學(xué)家,盡管他對(duì)哲學(xué)和統(tǒng)計(jì)學(xué)有著濃厚的興趣。事實(shí)上,他是一名神職人員。但是,貝葉斯定理卻是整個(gè)數(shù)學(xué)領(lǐng)域最重要的成果之一!它不僅在概率論和統(tǒng)計(jì)學(xué)中居于核心地位,在衛(wèi)星追蹤(或幾乎任何其他目標(biāo)的追蹤)、考古學(xué)、司法系統(tǒng)、氣象學(xué),甚至在大名鼎鼎(讓人又愛(ài)又恨)的蒙提霍爾問(wèn)題(即著名的“三門問(wèn)題”)等截然不同的領(lǐng)域中,都有著數(shù)不勝數(shù)的應(yīng)用。它更是構(gòu)建整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的基石。對(duì)于區(qū)區(qū)一個(gè)定理來(lái)說(shuō),這成就可以說(shuō)相當(dāng)了不起了。

我們可以用通俗的語(yǔ)言來(lái)解釋這個(gè)定理為何如此重要。假設(shè)事件 B 是我們真正感興趣的研究對(duì)象,而事件 A 是我們?yōu)榱诉M(jìn)一步了解 B 所進(jìn)行的實(shí)驗(yàn)。P(B) 就是我們?cè)谶M(jìn)行實(shí)驗(yàn)之前對(duì)事件 B 掌握的“先驗(yàn)知識(shí)”;而 P(B|A) 則是實(shí)驗(yàn)之后我們對(duì) B 獲得的“后驗(yàn)知識(shí)”。貝葉斯定理為我們提供了一條從先驗(yàn)知識(shí)通往后驗(yàn)知識(shí)的橋梁。我們成功地從數(shù)據(jù)中推斷出了背后的真相,這正是“貝葉斯推斷”一詞的由來(lái)。當(dāng)我們想要弄清楚一個(gè)無(wú)法直接測(cè)量的系統(tǒng)內(nèi)部正在發(fā)生什么,并且必須依靠間接的測(cè)量結(jié)果來(lái)進(jìn)行推論時(shí),這種思想在科學(xué)研究的各個(gè)方面都會(huì)被一遍又一遍地反復(fù)運(yùn)用。

硬幣存在偏向的概率有多大?

作為例子,現(xiàn)在讓我們把這個(gè)定理應(yīng)用到最初的問(wèn)題上,在不直接查看硬幣的情況下,推斷這枚硬幣是否兩面都是正面。我們這里重申一下設(shè)定,事件 A 為“連續(xù)擲出 10 次正面”,事件 B 為“我們抽中了一枚兩面都是正面的硬幣”。

我們已經(jīng)知道 P(A|B)=1,并且 P(B)=p。因此,為了計(jì)算出 P(B|A)(也就是在已知連續(xù)擲出 10 次正面的前提下,這枚硬幣兩面都是正面的概率),我們需要先算出 P(A)。P(A) 代表的是:從袋子里隨機(jī)摸出一枚硬幣,拋擲后連續(xù)出現(xiàn) 10 次正面的總概率。這里需要考慮兩種互斥的情況。第一種情況是,我們抽中了一枚兩面都是正面的硬幣,然后擲出了十次正面。這種情況發(fā)生的概率,其實(shí)就等于抽中這枚問(wèn)題硬幣的概率 P(B)(因?yàn)橐坏┏橹兴?,擲出十次正面就是板上釘釘?shù)氖铝耍?。第二種情況是,我們抽中了一枚質(zhì)地均勻的普通硬幣(我們將此事件記為 C),然后擲出了十次正面。在這種情況下,擲出十次正面的概率就是兩個(gè)單獨(dú)概率的乘積:P(A|C)P(C)。因此,擲出十次正面的總概率 P(A),就是這兩種互斥情況的概率之和:

我們剛才已經(jīng)算出了這里所有的項(xiàng):P(B)=p,P(A|C) = 1 / 1024,以及 P(C) = 1-p。因此:

現(xiàn)在,我們可以完成最后的計(jì)算,得出在“連續(xù)擲出 10 次正面”的前提下,這枚硬幣兩面都是正面的概率為:

為了讓你對(duì)這個(gè)概率的具體大小有個(gè)直觀感受,假設(shè)我們有一個(gè)裝了 100 枚硬幣的袋子,其中只有一枚是兩面全為正面的問(wèn)題硬幣。那么,p = 1 / 100。在這種情況下,已知硬幣連續(xù)擲出 10 次正面,它是問(wèn)題硬幣的概率就變成了:

也就是說(shuō),這枚硬幣存在偏向的概率高達(dá) 91%。對(duì)于大多數(shù)人來(lái)說(shuō),這個(gè)可能性已經(jīng)相當(dāng)有把握了。所以可以看到,在貝葉斯定理的運(yùn)用下,原本僅有 1% 的“硬幣存在偏向”的先驗(yàn)概率被更新為了 91%。

再次擲出正面的概率是多少?

現(xiàn)在,我們終于可以回過(guò)頭來(lái)回答最初提出的那個(gè)問(wèn)題了。在已經(jīng)連續(xù)擲出 10 次正面的前提下,下一次擲出正面的概率究竟是多少?

如果這是一枚問(wèn)題硬幣(即事件 B),那么下一次擲出正面的概率必然是 1。因此,基于現(xiàn)有的觀察數(shù)據(jù)(連出 10 次正面),下一次擲出正面且硬幣確實(shí)存在偏向的概率為:

如果這枚硬幣是質(zhì)地均勻的普通硬幣(即事件 C),那么下一次擲出正面的概率就是 1/2。因此,基于現(xiàn)有數(shù)據(jù),下一次擲出正面且硬幣毫無(wú)偏向的概率為:

在第 11 次拋擲這枚硬幣時(shí),再次出現(xiàn)正面的總概率,就是上述這兩個(gè)互斥事件概率的總和:

我們之前已經(jīng)算出了 P(B|A) 的值,而 P(C|A) 簡(jiǎn)單來(lái)說(shuō)就是 1- P(B|A)。因此,下一次再次擲出正面的概率就變成了:

如果 p = 1 / 100,那么P(再次擲出正面) = 0.955,約為96%。對(duì)于大多數(shù)實(shí)際情況來(lái)說(shuō),這個(gè)概率已經(jīng)足夠接近于 1 了。

在下圖中,我們將 P(再次擲出正面) 繪制為了 p 的函數(shù)。你可以清楚地看到,只有當(dāng) p 小到極其微弱的程度時(shí),P(再次擲出正面) 才會(huì)與 1 產(chǎn)生明顯的差距。因此,我們完全有底氣說(shuō),最初那個(gè)問(wèn)題的答案就是,下一次出現(xiàn)正面的概率非常接近 1,即便我們其實(shí)并不知道 p 的確切數(shù)值。


概率 P(再次擲出正面) 隨 p 變化的曲線圖。

大功告成……

……但是等等,有沒(méi)有一種可能,我對(duì)你隱瞞了真實(shí)的數(shù)據(jù)。這種情況下我們?cè)撛趺崔k?它又跟天氣預(yù)報(bào)甚至機(jī)器學(xué)習(xí)有什么千絲萬(wàn)縷的聯(lián)系?欲知后事如何,且聽(tīng)下文分解。

背面,貝葉斯輸!

在現(xiàn)實(shí)中,科學(xué)家們往往只能基于不完美的數(shù)據(jù)來(lái)做出預(yù)測(cè),天氣預(yù)報(bào)就是一個(gè)典型的例子。接下來(lái),本文的后半部分將為你揭秘一項(xiàng)專為解決此問(wèn)題而生的技術(shù)——“數(shù)據(jù)同化”(data assimilation)。它能夠在新信息的啟發(fā)下更新初始預(yù)測(cè),并充分考慮到一個(gè)現(xiàn)實(shí)情況:無(wú)論是觀測(cè)數(shù)據(jù)還是最初的預(yù)測(cè),其實(shí)都是不完美的。

在前面的章節(jié)中,我們學(xué)習(xí)了如何基于觀測(cè)數(shù)據(jù),運(yùn)用貝葉斯定理來(lái)調(diào)整對(duì)某個(gè)事件發(fā)生概率的預(yù)測(cè)。我們舉的例子是,一枚硬幣連續(xù)十次擲出了正面。面對(duì)這樣的數(shù)據(jù),這枚硬幣十有八九存在問(wèn)題,因此第十一次擲出正面的概率,理應(yīng)高于一枚普通均勻硬幣那 50% 的概率。貝葉斯定理從數(shù)學(xué)上證實(shí)了我們的直覺(jué)。

然而,對(duì)于我們所觀察到的現(xiàn)象,其實(shí)還存在另一種解釋。硬幣絕對(duì)公平?jīng)]有問(wèn)題,真正出了問(wèn)題的,是數(shù)據(jù)本身。例如,我可能在記錄正反面的時(shí)候剛好摘下了眼鏡。這下我根本兩眼一抹黑分不清哪面是哪面,為了圖省事兒,干脆把每次拋擲的結(jié)果都記成了正面。又或者,我明明看清了正反面,但是由于電腦系統(tǒng)出了故障,所有的結(jié)果全被強(qiáng)行錄入成了正面。

這些正是所謂儀器誤差(instrumentation error)的例子。在記錄數(shù)據(jù)時(shí),這類誤差其實(shí)并不罕見(jiàn)(盡管在現(xiàn)實(shí)中往往不會(huì)像上述例子那么極端)。要知道,沒(méi)有任何數(shù)據(jù)記錄設(shè)備是絕對(duì)完美的,它們多多少少都會(huì)出現(xiàn)一些偏差。

還有一種可能性是,我在記錄數(shù)據(jù)時(shí)故意對(duì)你撒了謊。哪怕硬幣擲出了好幾次反面,我仍然向你偽裝出它存在偏向的假象。在刑事案件的取證中,這種情況屢見(jiàn)不鮮,人們往往必須在真假難辨的證據(jù)和數(shù)據(jù)面前,判斷到底該不該相信某位證人的證言。

于是,我們不得不面對(duì)這樣一個(gè)問(wèn)題:如果擺在面前的數(shù)據(jù)不完全可靠,那么對(duì)于我們正在研究的系統(tǒng)(比如這枚硬幣到底是不是公平的),我們還能做出什么有意義的推斷嗎?

貝葉斯來(lái)救場(chǎng)

既然數(shù)據(jù)可能不太靠譜,要想準(zhǔn)確估計(jì)系統(tǒng)的真實(shí)狀態(tài),我們就需要有辦法來(lái)衡量這些數(shù)據(jù)的可靠性。對(duì)于測(cè)量?jī)x器來(lái)說(shuō),溫度計(jì)就是個(gè)很好的例子。假設(shè)我們要測(cè)量某個(gè)實(shí)際溫度 T,溫度計(jì)每次給出的讀數(shù)可能會(huì)有些許波動(dòng),但如果這些讀數(shù)的平均值恰好等于 T,我們就稱這支溫度計(jì)是“無(wú)偏的”(unbiased)。而這些讀數(shù)的方差(variance)則反映了它們?cè)谄骄瞪舷路稚⒌某潭?,這就為我們提供了一把評(píng)估測(cè)量結(jié)果到底有多靠譜的標(biāo)尺。如果方差很大,讀數(shù)飄忽不定,我們?cè)谛睦飳?duì)這組數(shù)據(jù)的采信度就會(huì)打個(gè)折扣;反之,如果方差很小,我們就會(huì)更加信任這些數(shù)據(jù)。通過(guò)這種方式,當(dāng)面對(duì)一份可能存在誤差的測(cè)量數(shù)據(jù)時(shí),我們就能精確權(quán)衡出究竟需要對(duì)原有的預(yù)測(cè)做出多大程度的修正,從而完成對(duì)某個(gè)事件(先驗(yàn))預(yù)測(cè)的更新。

這個(gè)過(guò)程,通常就被稱為“數(shù)據(jù)同化”(data assimilation)。數(shù)據(jù)同化的絕妙之處在于,它能將“不太靠譜的預(yù)測(cè)”與“同樣不太靠譜的數(shù)據(jù)”結(jié)合起來(lái),最終孕育出一個(gè)比這兩者都要準(zhǔn)確得多的全新預(yù)測(cè)!這簡(jiǎn)直就像變魔術(shù)一樣,我們幾乎是在"無(wú)中生有"!

氣象學(xué)家們使用數(shù)據(jù)同化技術(shù)已有大約二十年之久,這極大地提升了天氣預(yù)報(bào)的可靠性。理論上,要想根據(jù)今天的天氣狀況準(zhǔn)確預(yù)報(bào)明天全球的天氣,氣象學(xué)家在今天就需要對(duì)整個(gè)大氣層的狀態(tài)進(jìn)行大約十億次測(cè)量。但在現(xiàn)實(shí)中,這根本不可能辦到,他們窮盡手段,撐死也就只能完成大約一百萬(wàn)次測(cè)量。顯然,單靠這點(diǎn)數(shù)據(jù),遠(yuǎn)不足以了解今天的天氣狀況。

為了解決這個(gè)問(wèn)題,氣象學(xué)家們想出了一個(gè)辦法。他們會(huì)先拿出昨天對(duì)今天所做的天氣預(yù)報(bào),然后朝著今天實(shí)際觀測(cè)數(shù)據(jù)的方向,對(duì)這份預(yù)報(bào)進(jìn)行 “微調(diào)”( nudge)。然后用修正后的當(dāng)日天氣預(yù)報(bào),做明天的天氣預(yù)報(bào)。

數(shù)據(jù)同化正是用來(lái)完成這種“微調(diào)”的,它的基本思路如下:氣象學(xué)家根據(jù)昨天掌握的信息,對(duì)今天的天氣做出一個(gè)(先驗(yàn))預(yù)測(cè)。同時(shí),他們還要盡可能多地去測(cè)量今天的天氣狀況,比如看溫度計(jì)(或者干脆直接瞅瞅窗外)。由于每次測(cè)量總會(huì)有些微小的差異,所以即便是一支絕對(duì)標(biāo)準(zhǔn)的“無(wú)偏”溫度計(jì),也會(huì)給出一系列可能的測(cè)量值。

另一方面,基于昨日天氣對(duì)今日天氣所作的預(yù)測(cè)同樣也會(huì)存在誤差。實(shí)際上,是一大堆可能的誤差(畢竟我們的天氣模型和計(jì)算能力還遠(yuǎn)遠(yuǎn)談不上完美),我們將這種預(yù)測(cè)誤差分布的方差記為 Epred。然后,把這份預(yù)測(cè)與我們目前能收集到的關(guān)于今天天氣的(有限)觀測(cè)數(shù)據(jù)放在一起進(jìn)行比對(duì)。當(dāng)然,這些觀測(cè)數(shù)據(jù)自身也是帶有誤差的,我們將它的方差記為 Edata。

如果與 Edata 相比,Epred 的值較小,那么原本的預(yù)測(cè)只會(huì)朝著觀測(cè)數(shù)據(jù)的方向“微調(diào)”一點(diǎn)點(diǎn)。通俗點(diǎn)說(shuō),這是因?yàn)榇藭r(shí)的預(yù)測(cè)結(jié)果比今天實(shí)際測(cè)量的數(shù)據(jù)更可靠,所以我們不想過(guò)多地被今天的測(cè)量數(shù)據(jù)“帶偏”。相反,如果 Epred 比 Edata 大得多,那我們就會(huì)在很大程度上采信實(shí)測(cè)數(shù)據(jù)。

經(jīng)過(guò)這番“微調(diào)”后得到的結(jié)果,我們稱之為“分析值”,記為 A。這個(gè)分析值巧妙地兼顧了原始預(yù)測(cè)和實(shí)測(cè)數(shù)據(jù),是對(duì)今天天氣狀況做出的最佳估計(jì)。拿著這個(gè)分析值,天氣預(yù)報(bào)員就可以去預(yù)測(cè)接下來(lái)幾天的天氣了。


數(shù)據(jù)同化過(guò)程示意圖。粉色橢圓代表預(yù)測(cè)結(jié)果及其可能存在的誤差范圍,橙色橢圓則代表觀測(cè)數(shù)據(jù)及其可能存在的誤差范圍。數(shù)據(jù)同化將原始預(yù)測(cè)朝著觀測(cè)數(shù)據(jù)的方向進(jìn)行了“微調(diào)”,使得最終結(jié)果既落入原始預(yù)測(cè)的誤差橢圓之內(nèi),又同時(shí)落在了觀測(cè)數(shù)據(jù)的誤差橢圓之中。

這種將觀測(cè)數(shù)據(jù)同化到天氣預(yù)測(cè)中的想法(在專業(yè)方面衍生出了3 DVAR(三維變分)、4 DVAR(四維變分)以及集合卡爾曼濾波(Ensemble Kalman Filtering)等具體方法),正是英國(guó)氣象局(Met Office)、歐洲中期天氣預(yù)報(bào)中心(ECMWF)以及全球各地氣象中心每天為我們準(zhǔn)確預(yù)報(bào)天氣的關(guān)鍵。


氣象學(xué)中數(shù)據(jù)同化過(guò)程示意圖。

在這個(gè)案例,以及其他數(shù)據(jù)同化的應(yīng)用場(chǎng)景里,貝葉斯定理扮演的角色就是,它能精準(zhǔn)地告訴我們,“微調(diào)”的幅度到底需要多大。它在新數(shù)據(jù)的啟發(fā)下不斷更新預(yù)測(cè),并聰明地兼顧到了一個(gè)現(xiàn)實(shí)情況,也就是,無(wú)論是觀測(cè)數(shù)據(jù)還是原始預(yù)測(cè),都是不完美的。我們可以利用它來(lái)編寫(xiě)出一套算法,從而找到那個(gè)最佳預(yù)測(cè)。

極其成功的‘卡爾曼濾波’技術(shù)也運(yùn)用了同樣的理念,即系統(tǒng)性地將系統(tǒng)已有認(rèn)知與源源不斷的數(shù)據(jù)流結(jié)合起來(lái)。該技術(shù)最初是為了追蹤衛(wèi)星而發(fā)明的,如今卻已普及到了千家萬(wàn)戶,廣泛應(yīng)用于包括飛機(jī)導(dǎo)航系統(tǒng)和你口袋里的智能手機(jī)在內(nèi)的無(wú)數(shù)設(shè)備中。這種想法還進(jìn)一步被應(yīng)用在了現(xiàn)代機(jī)器學(xué)習(xí)領(lǐng)域,其中復(fù)雜的神經(jīng)網(wǎng)絡(luò)正是在海量(且可能并不完全可靠的)數(shù)據(jù)的“投喂”下不斷接受訓(xùn)練,從而學(xué)會(huì)去執(zhí)行各種五花八門的任務(wù)。

可以毫不夸張地說(shuō),我們?nèi)缃竦默F(xiàn)代世界,正是建立在貝葉斯定理及其無(wú)數(shù)神奇應(yīng)用的基礎(chǔ)之上!

作者:Chris Budd

翻譯:LogicMoriaty

審校:virens

原文鏈接: &

fu

li

shi

jian

今天我們將送出由中信出版集團(tuán)提供的《統(tǒng)計(jì)的藝術(shù)》。


這是一本不需要數(shù)學(xué)背景,卻能讓你在人工智能時(shí)代保持清醒的“認(rèn)知工具包”。英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)前會(huì)長(zhǎng)施皮格爾霍爾特,用日常的生動(dòng)案例,剝開(kāi)數(shù)據(jù)迷霧,拆解因果關(guān)系,教你識(shí)別陷阱、提出關(guān)鍵問(wèn)題、做出更優(yōu)決策。在人工智能不斷改變世界的今天,我們更需要統(tǒng)計(jì)學(xué)的底層素養(yǎng),作為理解世界不確定性、應(yīng)對(duì)噪聲的思維方式——拉開(kāi)認(rèn)知差距,從擁有統(tǒng)計(jì)思維開(kāi)始。

互動(dòng)問(wèn)題:玩游戲抽卡、排隊(duì)或者平時(shí)碰運(yùn)氣的時(shí)候,你有沒(méi)有遇到過(guò)類似‘連出10次正面’這種極其邪門、讓你甚至懷疑‘系統(tǒng)一定動(dòng)了手腳’的經(jīng)歷?可以分享一下嗎?】

請(qǐng)大家嚴(yán)格按照互動(dòng):?jiǎn)栴}答案的格式在評(píng)論區(qū)留言參與互動(dòng),格式不符合要求者無(wú)效。

截止到本周四中午12:00,參與互動(dòng)的留言中點(diǎn)贊數(shù)排名第二、三、五的朋友將獲得我們送出的圖書(shū)一套(點(diǎn)贊數(shù)相同的留言記為并列,并列的后一名次序加一,如并列第二的后一位讀者記為第三名,以此類推)。

為了保證更多的朋友能夠參與獲獎(jiǎng),過(guò)往四期內(nèi)獲過(guò)獎(jiǎng)的朋友不能再獲得獎(jiǎng)品,名次會(huì)依次順延

*本活動(dòng)僅限于微信平臺(tái)

編輯:姬子隰

翻譯內(nèi)容僅代表作者觀點(diǎn)

不代表中科院物理所立場(chǎng)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
出戰(zhàn)2840分鐘!創(chuàng)12年新高!杜蘭特返老還童?火箭9000萬(wàn)續(xù)約不虧

出戰(zhàn)2840分鐘!創(chuàng)12年新高!杜蘭特返老還童?火箭9000萬(wàn)續(xù)約不虧

熊哥愛(ài)籃球
2026-04-12 12:58:44
美伊?;饍?nèi)幕曝光!巴官員:中國(guó)本不愿擔(dān)保,經(jīng)巴方勸說(shuō)才出面

美伊?;饍?nèi)幕曝光!巴官員:中國(guó)本不愿擔(dān)保,經(jīng)巴方勸說(shuō)才出面

書(shū)寫(xiě)傳奇
2026-04-11 15:48:39
英國(guó)專家說(shuō)得對(duì):中國(guó)根本不是個(gè)國(guó)家,是個(gè)“穿了馬甲的文明”

英國(guó)專家說(shuō)得對(duì):中國(guó)根本不是個(gè)國(guó)家,是個(gè)“穿了馬甲的文明”

小虎新車推薦員
2026-04-11 05:07:34
分手2個(gè)月后被前男友掐死,安徽22歲女醫(yī)學(xué)生案即將二審,受害者母親:希望維持一審死刑判決,希望他盡快被執(zhí)行

分手2個(gè)月后被前男友掐死,安徽22歲女醫(yī)學(xué)生案即將二審,受害者母親:希望維持一審死刑判決,希望他盡快被執(zhí)行

大風(fēng)新聞
2026-04-11 16:19:05
騎士收官戰(zhàn)全員輪休,哈登終于迎來(lái)休息

騎士收官戰(zhàn)全員輪休,哈登終于迎來(lái)休息

鴻錦籃球
2026-04-12 08:13:54
總?cè)丝诓坏轿覈?guó)1%,研發(fā)戰(zhàn)機(jī)比美俄更先進(jìn),武器從不依賴進(jìn)口

總?cè)丝诓坏轿覈?guó)1%,研發(fā)戰(zhàn)機(jī)比美俄更先進(jìn),武器從不依賴進(jìn)口

圓夢(mèng)的小老頭
2026-04-09 15:04:37
人紅是非多!王浩然是深圳前主帥之子?長(zhǎng)得像而已絕非父子

人紅是非多!王浩然是深圳前主帥之子?長(zhǎng)得像而已絕非父子

大嘴爵爺侃球
2026-04-11 22:36:32
爆炸性新聞!加州民調(diào)第一的州長(zhǎng)候選人被曝強(qiáng)奸女下屬,民主黨高層迅速劃清界線

爆炸性新聞!加州民調(diào)第一的州長(zhǎng)候選人被曝強(qiáng)奸女下屬,民主黨高層迅速劃清界線

大洛杉磯LA
2026-04-12 04:46:31
浪姐史上翻車最大最快的人出現(xiàn)了,網(wǎng)友:人不紅果然是有原因的

浪姐史上翻車最大最快的人出現(xiàn)了,網(wǎng)友:人不紅果然是有原因的

許三歲
2026-04-12 07:34:18
宣布了!保羅確定下賽季復(fù)出當(dāng)教練!

宣布了!保羅確定下賽季復(fù)出當(dāng)教練!

貴圈真亂
2026-04-12 12:33:13
化療重金屬超標(biāo)!大咖男星留嚴(yán)重后遺癥雙頰凹陷暴瘦近況曝

化療重金屬超標(biāo)!大咖男星留嚴(yán)重后遺癥雙頰凹陷暴瘦近況曝

曼和球
2026-04-12 10:45:48
中國(guó)足協(xié)要求半小時(shí)內(nèi)報(bào)告比賽異常行為!有球隊(duì)連射自家球門

中國(guó)足協(xié)要求半小時(shí)內(nèi)報(bào)告比賽異常行為!有球隊(duì)連射自家球門

南方都市報(bào)
2026-04-11 18:28:56
作家王朔回應(yīng)“被八旬作家楊本芬抄襲”:只言片語(yǔ)算不上抄襲,老太太挺好的,道歉必須原諒

作家王朔回應(yīng)“被八旬作家楊本芬抄襲”:只言片語(yǔ)算不上抄襲,老太太挺好的,道歉必須原諒

極目新聞
2026-04-09 15:35:29
陶漢林頂薪即將到期!回應(yīng)今夏選擇:要么續(xù)約山東 要么退役

陶漢林頂薪即將到期!回應(yīng)今夏選擇:要么續(xù)約山東 要么退役

醉臥浮生
2026-04-12 11:10:48
我國(guó)首任空軍參謀長(zhǎng),因泄露國(guó)家機(jī)密被撤職,死后遺體被冰凍12年

我國(guó)首任空軍參謀長(zhǎng),因泄露國(guó)家機(jī)密被撤職,死后遺體被冰凍12年

混沌錄
2026-04-11 18:59:19
人民英雄紀(jì)念碑開(kāi)工后,林徽因詢問(wèn)碑文誰(shuí)寫(xiě),彭真:周總理字不賴

人民英雄紀(jì)念碑開(kāi)工后,林徽因詢問(wèn)碑文誰(shuí)寫(xiě),彭真:周總理字不賴

棠棣分享
2026-03-26 10:47:57
瞞不住了!焦泊喬突然重返宏遠(yuǎn),背后全是杜鋒的形勢(shì)所迫

瞞不住了!焦泊喬突然重返宏遠(yuǎn),背后全是杜鋒的形勢(shì)所迫

去山野間追風(fēng)
2026-04-12 12:51:04
你永遠(yuǎn)想不到,日本對(duì)我國(guó)的土地渴望到了什么程度

你永遠(yuǎn)想不到,日本對(duì)我國(guó)的土地渴望到了什么程度

賤議你讀史
2026-04-10 12:07:08
56歲的王菲現(xiàn)身西藏,打扮的很高級(jí),不愧是經(jīng)常拜佛的人

56歲的王菲現(xiàn)身西藏,打扮的很高級(jí),不愧是經(jīng)常拜佛的人

鄉(xiāng)野小珥
2026-04-11 01:30:53
60%民調(diào)反轉(zhuǎn)!賴清德想不到,鄭麗文大陸行,扭轉(zhuǎn)國(guó)民黨10年頹勢(shì)

60%民調(diào)反轉(zhuǎn)!賴清德想不到,鄭麗文大陸行,扭轉(zhuǎn)國(guó)民黨10年頹勢(shì)

一口娛樂(lè)
2026-04-12 10:11:28
2026-04-12 14:07:00
中科院物理所 incentive-icons
中科院物理所
愛(ài)上物理,改變世界。
10059文章數(shù) 136519關(guān)注度
往期回顧 全部

頭條要聞

媒體:伊朗新領(lǐng)袖"冒死接班"1個(gè)月未露面 突然全面亮劍

頭條要聞

媒體:伊朗新領(lǐng)袖"冒死接班"1個(gè)月未露面 突然全面亮劍

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂(lè)要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

教育
房產(chǎn)
數(shù)碼
親子
公開(kāi)課

教育要聞

高二英語(yǔ)不及格狀態(tài),馬上要上高三,還來(lái)得及提分嗎?

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

數(shù)碼要聞

小米電視桌面4.0重磅升級(jí)來(lái)了!流暢度大提升 多賽事同屏播放

親子要聞

8345,語(yǔ)言發(fā)育遲緩兒童,言語(yǔ)復(fù)述這樣練~

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版