国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么科學(xué)結(jié)論不再可靠?

0
分享至


作者|戴維·施皮格爾霍爾特 (David Spiegelhalter)

英國皇家學(xué)會院士,劍橋大學(xué)統(tǒng)計(jì)學(xué)榮休教授,英國皇家統(tǒng)計(jì)學(xué)會前會長,當(dāng)代最具影響力的統(tǒng)計(jì)學(xué)家與風(fēng)險(xiǎn)交流專家之一。曾長期任教于劍橋大學(xué)統(tǒng)計(jì)實(shí)驗(yàn)室,并于 2016—2023 年出任劍橋大學(xué)溫頓風(fēng)險(xiǎn)與證據(jù)交流中心主任,致力于提升公眾對定量證據(jù)的理解、呈現(xiàn)與使用能力。其研究涵蓋貝葉斯統(tǒng)計(jì)、醫(yī)學(xué)統(tǒng)計(jì)、風(fēng)險(xiǎn)評估與不確定性分析,對醫(yī)療決策、公共衛(wèi)生和政策評估產(chǎn)生了重要影響,其論文全球引用逾十萬次,曾入選“高被引研究者”。

2011年,美國著名社會心理學(xué)家達(dá)里爾·貝姆在著名心理學(xué)期刊上發(fā)表了一篇重要論文。在論文相關(guān)的實(shí)驗(yàn)中,達(dá)里爾·貝姆找來了100名學(xué)生,讓他們坐在電腦屏幕前。屏幕上有兩塊“窗簾”,達(dá)里爾·貝姆讓這些學(xué)生猜測哪塊窗簾后面藏有圖像。之后窗簾會被“打開”,展現(xiàn)出正確答案。學(xué)生們需要連續(xù)猜36次。該實(shí)驗(yàn)最特殊的一個(gè)地方在于,受試者給出答案以后,圖像出現(xiàn)在哪塊窗簾后面完全隨機(jī),因此研究者認(rèn)為,所有正確答案都來自受試者的超感官知覺,即第六感。


《統(tǒng)計(jì)的藝術(shù) 》

[英] 戴維·施皮格爾霍爾特 著

韓瀟瀟 譯 周靜 審校

中信出版集團(tuán)

2026年2月

達(dá)里爾·貝姆在論文中提到,零假設(shè)為“不存在第六感”,所以選擇正確的概率預(yù)計(jì)為50%。但實(shí)驗(yàn)結(jié)果顯示,當(dāng)窗簾后面的圖像為色情圖像時(shí),受試者的正確率可以達(dá)到53%,這一結(jié)果的P值為0.01。另外,該論文還包含了另外8項(xiàng)第六感實(shí)驗(yàn)的結(jié)果,受試者人數(shù)超過了1,000,研究跨度達(dá)10年以上,9項(xiàng)研究中一共有8項(xiàng)都取得了具有統(tǒng)計(jì)顯著性的結(jié)果。難道說第六感真的存在嗎?這些研究能夠令人信服嗎?

雖然目前為止,本書已經(jīng)介紹了很多優(yōu)秀的統(tǒng)計(jì)實(shí)驗(yàn),這些實(shí)驗(yàn)既蘊(yùn)含著研究者的卓越智慧和精心設(shè)計(jì),又體現(xiàn)出了研究者對統(tǒng)計(jì)工具的局限性和潛在風(fēng)險(xiǎn)的清楚認(rèn)知,但你要知道,現(xiàn)實(shí)情況不會一直那么美好,F(xiàn)在,我們就來看看,當(dāng)統(tǒng)計(jì)學(xué)被濫用時(shí)會發(fā)生什么。達(dá)里爾·貝姆的故事我們稍后再講。

如今,人們之所以格外關(guān)注統(tǒng)計(jì)實(shí)驗(yàn)的質(zhì)量,是因?yàn)榭茖W(xué)界之前曾出現(xiàn)過一場舉世震驚的丑聞事件,該事件被認(rèn)為是科學(xué)界可重復(fù)性危機(jī)(reproducibility crisis)的罪魁禍?zhǔn)住?/p>

可重復(fù)性危機(jī)

第10章中我們曾提到,約翰·約安尼季斯曾于2005年發(fā)表過這樣一個(gè)令人瞠目的觀點(diǎn):大多數(shù)已發(fā)表的研究結(jié)論都是錯(cuò)的。之后有越來越多的研究者認(rèn)為,那些已發(fā)表的科學(xué)論文的確有很多都不可靠?茖W(xué)家們無法復(fù)現(xiàn)同行的研究實(shí)驗(yàn),這意味著那些原始結(jié)論根本沒有它們表現(xiàn)出來的那樣可信。這種現(xiàn)象最初主要集中在醫(yī)學(xué)和生物學(xué)領(lǐng)域,后來又逐漸蔓延到了心理學(xué)以及其他社會科學(xué)當(dāng)中,盡管我們并不清楚弄虛作假的論文的真實(shí)比例。

雖然約翰·約安尼季斯做出如此判斷的根據(jù)是某個(gè)理論模型,但我們也可以通過實(shí)際操作去驗(yàn)證這一說法,即以同樣的方法去復(fù)現(xiàn)過往的實(shí)驗(yàn),看看能否取得類似的實(shí)驗(yàn)結(jié)果!翱芍貜(fù)性計(jì)劃”是一個(gè)重要的合作項(xiàng)目,合作者們以更大的樣本規(guī)模對100項(xiàng)心理研究進(jìn)行了重復(fù)實(shí)驗(yàn),因此理論上來說,如果這些研究結(jié)論為真,那該項(xiàng)目能夠以更高的檢驗(yàn)效能去識別這些真實(shí)效應(yīng)。最終合作者們發(fā)現(xiàn),雖然有97%的原始研究取得了具有統(tǒng)計(jì)顯著性的結(jié)果,但其中只有36%能在重復(fù)實(shí)驗(yàn)中得到復(fù)現(xiàn)。

可悲的是,各媒體在報(bào)道這一結(jié)論時(shí),經(jīng)常會認(rèn)為這意味著有63%的具有“統(tǒng)計(jì)顯著性”的科學(xué)結(jié)論實(shí)際為假——他們還會落入“嚴(yán)格按照統(tǒng)計(jì)顯著性去判斷實(shí)驗(yàn)結(jié)論是否可靠”的陷阱。美國著名統(tǒng)計(jì)學(xué)家、博主安德魯·格爾曼曾指出,“具有統(tǒng)計(jì)顯著性”與“不具有統(tǒng)計(jì)顯著性”之間的差異本身就不具有統(tǒng)計(jì)顯著性。事實(shí)上,只有23%的原始實(shí)驗(yàn)與重復(fù)實(shí)驗(yàn)之間的差異具有統(tǒng)計(jì)顯著性,我們在估計(jì)弄虛作假的論文的比例時(shí),使用這一數(shù)字似乎更為恰當(dāng)一些。

與其用“統(tǒng)計(jì)顯著性”去判斷“科學(xué)發(fā)現(xiàn)”的可靠程度,我們還不如把注意力放在實(shí)驗(yàn)效應(yīng)的大小上?芍貜(fù)性計(jì)劃發(fā)現(xiàn),雖然平均來看,重復(fù)實(shí)驗(yàn)效應(yīng)的方向和原始實(shí)驗(yàn)相同,但其大小卻只有原始實(shí)驗(yàn)的一半。這反映出了科學(xué)文獻(xiàn)中長期存在的一個(gè)重要偏差:只要某項(xiàng)研究的效應(yīng)足夠“大”,那么哪怕結(jié)果帶有一定的運(yùn)氣成分,它也更有可能被發(fā)表在重要期刊之上。如果用均值回歸現(xiàn)象來類比,這種現(xiàn)象或許可以被稱為“零假設(shè)回歸”——被夸大的原始實(shí)驗(yàn)效應(yīng),會朝著零假設(shè)的方向下滑。

可重復(fù)性危機(jī)是一個(gè)相當(dāng)復(fù)雜的問題,其根源在于研究人員面臨的科研壓力過大——他們必須想方設(shè)法做出“科學(xué)發(fā)現(xiàn)”,然后將其發(fā)表在著名期刊上,但這一切都取決于他們能否獲取具有統(tǒng)計(jì)顯著性的研究結(jié)果。我們不能單獨(dú)去怪罪某個(gè)機(jī)構(gòu)或某個(gè)人。另外,之前在討論假設(shè)檢驗(yàn)時(shí)我們也曾提到,就算統(tǒng)計(jì)實(shí)驗(yàn)的每一步都完美無瑕,其結(jié)果和結(jié)論也不能保證為真,也就是說,會有相當(dāng)一部分具有統(tǒng)計(jì)顯著性的結(jié)果實(shí)際上為假陽性(見圖10-5),F(xiàn)在的問題在于,大多數(shù)統(tǒng)計(jì)實(shí)驗(yàn)根本和“完美”兩個(gè)字沾不上邊。

PPDAC分析流程中的每個(gè)階段都有可能會出現(xiàn)嚴(yán)重的統(tǒng)計(jì)問題。比如在一開始的“提出問題”階段,我們就可能會設(shè)定一個(gè)無法用現(xiàn)有信息解答的問題,例如,如果我們想研究“為什么過去的十年當(dāng)中,英國少女懷孕率出現(xiàn)了大幅下降”,那當(dāng)前數(shù)據(jù)就無法給出解釋。

第二個(gè)階段,即“做出規(guī)劃”階段,也可能會出現(xiàn)以下這些問題:

傾向于選擇方便廉價(jià)的樣本,而不是具有代表性的樣本,比如選前民意調(diào)查中的電話調(diào)查。

調(diào)查時(shí)使用引導(dǎo)性問題或誤導(dǎo)性問題,比如“您認(rèn)為網(wǎng)絡(luò)購物大約可以節(jié)省多少錢?”

沒有設(shè)定恰當(dāng)?shù)膶Ρ,比如只通過志愿者的情況來評估順勢療法的效果。

設(shè)定的樣本規(guī)模過小,檢驗(yàn)效能過低,這意味著如果備擇假設(shè)為真,那我們能夠正確將其檢測出來的概率過低。

未能正確判斷數(shù)據(jù)的干擾因素,沒有進(jìn)行盲法試驗(yàn),等等。

正如費(fèi)希爾那句名言所說的一樣:“實(shí)驗(yàn)完成后再去咨詢統(tǒng)計(jì)學(xué)家的意見,就相當(dāng)于患者死亡后再給他們體檢。此時(shí)我們唯一能做的,或許就是告訴你實(shí)驗(yàn)的死因!

在“收集數(shù)據(jù)”階段,最常見的問題包括回復(fù)率太低、有人中途退出研究項(xiàng)目、招募進(jìn)度比預(yù)期慢很多、難以快速對所有數(shù)據(jù)編碼,等等。所有這些可預(yù)見的問題都可以通過小規(guī)模試點(diǎn)試驗(yàn)的方法來提前解決。

“分析數(shù)據(jù)”階段最容易出問題的地方,就是“不小心犯了錯(cuò)”。雖然我們都有可能在編碼、制表過程中犯錯(cuò),但這些錯(cuò)誤的后果很難和下面這些案例“相提并論”。

著名經(jīng)濟(jì)學(xué)家卡門·萊因哈特與肯尼思·羅戈夫曾于2010年合作發(fā)表了一篇論文,該論文對“人們對經(jīng)濟(jì)緊縮政策的態(tài)度”產(chǎn)生了很大影響。然而后來一名博士生偶然發(fā)現(xiàn),這兩個(gè)人的論文不小心遺漏了五個(gè)國家的數(shù)據(jù)分析,而這僅僅是因?yàn)橐粋(gè)小小的電子表格錯(cuò)誤。

全球投資公司安盛羅森堡的一名程序員曾因敲錯(cuò)代碼,導(dǎo)致某個(gè)統(tǒng)計(jì)模型計(jì)算出來的風(fēng)險(xiǎn)系數(shù)過低,大約只有實(shí)際值的萬分之一,公司客戶因此損失了2.17億美元。2011年,美國證券交易委員會以“未能及時(shí)向投資者報(bào)告模型錯(cuò)誤”為名讓安盛羅森堡進(jìn)行等額賠償,同時(shí)額外開出了2,500萬美元的罰款,這導(dǎo)致公司一共損失了2.42億美元。

另外,有時(shí)雖然計(jì)算結(jié)果完全正確,但使用的統(tǒng)計(jì)模型卻存在問題。例如:

開展“整群隨機(jī)對照試驗(yàn)”時(shí),錯(cuò)誤地按照個(gè)體隨機(jī)對照試驗(yàn)分析數(shù)據(jù)。整群隨機(jī)對照試驗(yàn)指的是將一整群人(比如某個(gè)全科診所的所有病人)同時(shí)分配到某一組別當(dāng)中。

分別在基準(zhǔn)狀態(tài)、干預(yù)狀態(tài)測試兩個(gè)組別的數(shù)據(jù),如果一組人在兩種狀態(tài)下的差異達(dá)到了統(tǒng)計(jì)顯著性,另一組人則沒有,就得出結(jié)論認(rèn)為兩組人之間存在差異。正確的做法是,對兩組之間的差異進(jìn)行統(tǒng)計(jì)檢驗(yàn)——這在統(tǒng)計(jì)學(xué)中又被稱為“交互作用檢驗(yàn)”。

將“不具有統(tǒng)計(jì)顯著性”誤解為“實(shí)驗(yàn)沒有產(chǎn)生任何效應(yīng)”。例如在第10章提到的酒精與死亡風(fēng)險(xiǎn)的研究中,年齡在50~64歲之間、每周飲酒15~20個(gè)酒精單位的男性,死亡風(fēng)險(xiǎn)會顯著降低;而那些飲酒稍多或稍少一些的男性,死亡風(fēng)險(xiǎn)的降幅與0之間不存在顯著差異。雖然論文聲稱,這些群體的飲酒結(jié)果存在重要區(qū)別,但從置信區(qū)間來看,這些區(qū)別完全可以忽略不計(jì)。再次提醒大家,“具有統(tǒng)計(jì)顯著性的結(jié)果”與“不具有統(tǒng)計(jì)顯著性的結(jié)果”之間的差異,不一定具有統(tǒng)計(jì)顯著性。

在“得出結(jié)論”這一步驟,最明目張膽的做法就是對實(shí)驗(yàn)結(jié)果進(jìn)行多次顯著性檢驗(yàn),但只報(bào)告最具有統(tǒng)計(jì)顯著性的那次結(jié)果,并借此強(qiáng)調(diào)實(shí)驗(yàn)結(jié)論的可靠性。我們已經(jīng)在前文中看到,這種做法能夠極大增加發(fā)現(xiàn)具有統(tǒng)計(jì)顯著性的P值的機(jī)會,就連“死魚復(fù)生”都不是問題。這相當(dāng)于電視臺在播放足球比賽時(shí),只轉(zhuǎn)播某個(gè)球隊(duì)的進(jìn)球鏡頭,但不轉(zhuǎn)播失球鏡頭:這種選擇性報(bào)道不可能讓我們獲得真實(shí)且全面的信息。

如此一來,我們很難分清實(shí)驗(yàn)設(shè)計(jì)的失誤到底是因?yàn)檠芯咳藛T能力有所欠缺,還是因?yàn)檠芯空咴诠室庹`導(dǎo)大家。更令人憂心的是,這種現(xiàn)象并不少見。在美國甚至有人因?yàn)椤袄米蛹治,選擇性報(bào)道具有統(tǒng)計(jì)顯著性的實(shí)驗(yàn)結(jié)果”而被刑事定罪。斯科特·哈科寧曾擔(dān)任美國制藥公司InterMune首席執(zhí)行官,這家公司曾為研究“特發(fā)性肺纖維化”新藥的療效而開展了一項(xiàng)臨床試驗(yàn)。試驗(yàn)結(jié)果表明,該藥物的整體療效并不顯著,但在輕度至中度的患者(子集)中,死亡風(fēng)險(xiǎn)的降幅卻很顯著。斯科特·哈科寧據(jù)此向投資者發(fā)布了一份新聞稿,報(bào)道了該研究成果,并表示自己相信這項(xiàng)研究能夠帶來巨大回報(bào)。盡管他并沒有說任何謊話,只是選擇性報(bào)道了部分事實(shí),但陪審團(tuán)還是于2009年認(rèn)定他犯有電信詐騙罪,理由是他有欺詐投資者的意圖。政府原本的訴求是判處他10年監(jiān)禁,以及2萬美元罰款,但法庭最終判處他6個(gè)月的軟禁,以及3年緩刑。后來的臨床試驗(yàn)發(fā)現(xiàn),該藥物對這部分子集患者不存在任何療效。

統(tǒng)計(jì)實(shí)驗(yàn)中的不端行為可能是有意的,也可能是無意的。為了說明科學(xué)界同行評議和審稿制度的嚴(yán)重缺陷,“德國飲食與健康研究所”的約翰內(nèi)斯·博安農(nóng)曾故意設(shè)計(jì)了一項(xiàng)有問題的實(shí)驗(yàn)。該實(shí)驗(yàn)中,受試者被隨機(jī)分成3組,各組人員分別按照標(biāo)準(zhǔn)飲食、低碳水飲食、低碳水飲食外加巧克力的要求進(jìn)餐。他們在三周的時(shí)間里接受了一系列的測試,研究結(jié)果表明,巧克力組的體重降幅比低碳水組的降幅高出10%,其P值為0.04。這份具有統(tǒng)計(jì)顯著性的研究結(jié)果被投遞給一家期刊,結(jié)果該期刊認(rèn)為這篇論文是一篇“極其優(yōu)秀的稿件”,并向研究者回復(fù)說,只要支付600歐元的出版費(fèi),“它就可以在我們出版社的頂級期刊上發(fā)表出來”。意料之中的是,該研究一經(jīng)發(fā)表便引起了眾多媒體的爭相報(bào)道,甚至有媒體寫出了“巧克力可以加快減肥進(jìn)度”這樣的標(biāo)題。

令媒體沒想到的是,這項(xiàng)研究從頭到尾都是一場騙局!凹s翰內(nèi)斯·博安農(nóng)”的真名是約翰·博安農(nóng);他本來的職業(yè)也不是科學(xué)家,而是記者;所謂的“德國飲食與健康研究所”根本不存在,該研究唯一真實(shí)的東西就是數(shù)據(jù)——這些數(shù)據(jù)未經(jīng)任何篡改或捏造。但問題是,每組中的受試者只有5名;統(tǒng)計(jì)顯著性檢驗(yàn)進(jìn)行了很多次;論文只報(bào)道了具有統(tǒng)計(jì)顯著性的結(jié)果。

媒體報(bào)道后,論文作者立即承認(rèn)了作假行為,并說出了自己的真實(shí)目的。然而,并非所有統(tǒng)計(jì)作假都是為了揭露同行評議制度的缺陷。

蓄意欺詐

故意作假的現(xiàn)象確實(shí)存在,只不過大家覺得這種現(xiàn)象應(yīng)當(dāng)相對少見。一項(xiàng)匿名的調(diào)查研究發(fā)現(xiàn),大約有2%的科學(xué)家承認(rèn)自己曾經(jīng)偽造過數(shù)據(jù),但美國國家科學(xué)基金會、美國科研誠信辦公室處理過的“故意作假”案件卻相當(dāng)之少,完全不符合調(diào)查結(jié)果,哪怕2%已經(jīng)是被低估的數(shù)值了。

用統(tǒng)計(jì)學(xué)方法去辨別統(tǒng)計(jì)作假行為,聽上去好像也很合理。賓夕法尼亞大學(xué)的心理學(xué)家尤里·西蒙松曾對某些隨機(jī)試驗(yàn)的統(tǒng)計(jì)量進(jìn)行了深入研究,結(jié)果發(fā)現(xiàn)這些本應(yīng)帶有很強(qiáng)隨機(jī)性的統(tǒng)計(jì)量,實(shí)際上卻表現(xiàn)出了極為夸張的相似性或差異性。例如他注意到,某篇論文中引用的三個(gè)標(biāo)準(zhǔn)差都是25.11,但這三個(gè)標(biāo)準(zhǔn)差實(shí)際上來自不同的小組(每組均為15人)。尤里·西蒙松設(shè)法找到了原始數(shù)據(jù),并利用數(shù)據(jù)模擬證明三個(gè)標(biāo)準(zhǔn)差完全一樣的概率微乎其微——后來該研究項(xiàng)目的負(fù)責(zé)人主動辭職了。

西里爾·伯特是一名來自英國的心理學(xué)家,因?qū)χ巧踢z傳性的研究而聞名于世。然而在其去世之后,人們開始懷疑他的研究涉嫌作假,因?yàn)槿藗儼l(fā)現(xiàn),盡管研究涉及的雙胞胎兒童數(shù)量在不斷增加,但各雙胞胎智商的相關(guān)系數(shù)卻一直沒有什么變化(每對雙胞胎都會在不同的環(huán)境中長大):1943年的相關(guān)系數(shù)為0.770,1955年為0.771,1966年仍然為0.771。雖然人們懷疑數(shù)據(jù)有假,但他死后所有的研究記錄都被燒毀了,其數(shù)據(jù)是否經(jīng)過偽造至今仍存有爭議。支持他的人認(rèn)為,這些數(shù)字肯定是不小心寫錯(cuò)了,他應(yīng)該不會做出如此明目張膽的作假行為。

如果統(tǒng)計(jì)研究只涉及無心過錯(cuò)、有意作假,那問題倒也好解決,盡管這些問題本質(zhì)上確實(shí)很嚴(yán)重。比如,我們可以提高教育質(zhì)量,仔細(xì)檢查數(shù)據(jù),重復(fù)多次實(shí)驗(yàn),公開研究數(shù)據(jù),等等,最后一章我們還會詳細(xì)討論該問題。但除此之外,我們還面臨一個(gè)更嚴(yán)峻、更困難的問題,有些人認(rèn)為這一問題才是可重復(fù)性危機(jī)的核心原因。

可疑學(xué)術(shù)行為

就算數(shù)據(jù)完全真實(shí),實(shí)驗(yàn)分析恰當(dāng)合理,統(tǒng)計(jì)量和P值的計(jì)算準(zhǔn)確無誤,如果我們不知道研究人員得出結(jié)論的具體過程,也很難正確理解實(shí)驗(yàn)結(jié)果的含義。

我們已經(jīng)看到了研究人員選擇性報(bào)告具有統(tǒng)計(jì)顯著性的結(jié)果所帶來的種種問題,但更重要的是,在整個(gè)研究過程當(dāng)中,研究人員有時(shí)會有意識或無意識地根據(jù)數(shù)據(jù)的反饋結(jié)果做出各種細(xì)微的“改進(jìn)措施”,比如對實(shí)驗(yàn)設(shè)計(jì)、停止收集數(shù)據(jù)的時(shí)間、排除哪些數(shù)據(jù)、對哪些因素進(jìn)行分層分析、重點(diǎn)關(guān)注哪些組別與結(jié)果、如何對連續(xù)變量分組、如何處理缺失數(shù)據(jù)等諸多細(xì)節(jié)的改動。尤里·西蒙松將這些決策稱為“研究者自由度”,而安德魯·格爾曼則以更為詩意的方式將其稱為“小徑分岔的花園”。所有這些改動都有可能會提高“獲得具有統(tǒng)計(jì)顯著性的實(shí)驗(yàn)結(jié)果”的概率,所以都屬于“可疑學(xué)術(shù)行為”的范疇。

因此,我們有必要將探索性研究(exploratory studies)和驗(yàn)證性研究(confirmatory studies)區(qū)分開來。顧名思義,探索性研究的調(diào)查方式較為靈活,通常以探索更多可行性、提出更多假設(shè)為目的,而后續(xù)那些為了檢驗(yàn)假設(shè)可靠性的研究就是驗(yàn)證性研究。在探索性研究中,我們可以根據(jù)需要適當(dāng)調(diào)整實(shí)驗(yàn)細(xì)節(jié),但驗(yàn)證性研究應(yīng)當(dāng)嚴(yán)格按照預(yù)先規(guī)劃好的、最好是公開透明的方案逐步進(jìn)行。雖然這兩種研究都可以用P值來衡量證據(jù)對結(jié)論的支持程度,但二者應(yīng)當(dāng)明確區(qū)分開來,并以完全不同的方式加以解釋。

那些想方設(shè)法去獲取具有統(tǒng)計(jì)顯著性結(jié)果的行為,通常又被稱為“P值操縱”。P值操縱最簡單的思路就是進(jìn)行多次檢驗(yàn),但只報(bào)告具有統(tǒng)計(jì)顯著性的結(jié)果。不過除此之外,研究者們還可以通過很多更“巧妙”的方法來行使所謂的“研究者自由度”。

聽披頭士的歌曲《當(dāng)我64歲時(shí)》,能讓人返老還童?

大多數(shù)人都會覺得這絕無可能。但是尤里·西蒙松和他的同事一起,在一些“統(tǒng)計(jì)小伎倆”的幫助下,得出了一個(gè)具有統(tǒng)計(jì)顯著性的陽性結(jié)果。

該實(shí)驗(yàn)找來了一群賓夕法尼亞大學(xué)的本科生,這些學(xué)生被隨機(jī)分成幾組,分別收聽披頭士樂隊(duì)的《當(dāng)我64歲時(shí)》、Mr. Scruff的《克林巴》,以及Wiggles的《燙手山芋》。聽完之后,學(xué)生們需要回答自己的出生日期、個(gè)人感受,以及其他一些奇奇怪怪的問題。

尤里·西蒙松和他的同事一起,用他們能想到的各種技巧和方法去反復(fù)分析數(shù)據(jù),并不斷招募新的受試者,直到他們發(fā)現(xiàn)某個(gè)具有統(tǒng)計(jì)顯著性的相關(guān)性結(jié)論為止。受試人數(shù)達(dá)到34之后,在受試者年齡和他們收聽的音樂之間沒有顯著關(guān)系的情況下,僅通過《當(dāng)我64歲時(shí)》和《克林巴》兩首歌的對比,研究人員就得到了P值<0.05的回歸分析結(jié)果(對父親的年齡進(jìn)行了分層分析)。當(dāng)然,他們只報(bào)告了具有統(tǒng)計(jì)顯著性的分析結(jié)果,而沒有提到他們對實(shí)驗(yàn)做出的諸多調(diào)整、使用的各種技巧,以及對實(shí)驗(yàn)結(jié)果的選擇性報(bào)道——直到論文結(jié)尾處,他們才將真相說了出來。這類學(xué)術(shù)不端行為如今被統(tǒng)稱為“根據(jù)結(jié)果構(gòu)建假設(shè)”,即在確定結(jié)果的情況下提出假設(shè)。

學(xué)術(shù)不端行為有多普遍?

2012年,一項(xiàng)針對2,155名美國心理學(xué)家的調(diào)查顯示,只有2%的人承認(rèn)自己偽造過數(shù)據(jù)。但一份包含10項(xiàng)可疑學(xué)術(shù)行為的調(diào)查問卷表明:

35%的人表示自己有過“雖然實(shí)驗(yàn)結(jié)論中提到這是一項(xiàng)意外發(fā)現(xiàn),但其實(shí)在實(shí)驗(yàn)開始前我們就預(yù)料到了該結(jié)果”的行為;

58%的人表示自己有過“一邊收集數(shù)據(jù),一邊進(jìn)行顯著性檢驗(yàn)。當(dāng)出現(xiàn)具有統(tǒng)計(jì)顯著性的結(jié)果時(shí),立即停止數(shù)據(jù)收集”的行為;

67%的人表示自己有過“沒有公開全部實(shí)驗(yàn)結(jié)果”的行為;

94%的人承認(rèn),在列出來的10項(xiàng)可疑學(xué)術(shù)行為中,至少有1項(xiàng)符合自身情況。

令人遺憾的是,這些人普遍認(rèn)為以上行為相當(dāng)合理——畢竟誰都想報(bào)告一個(gè)新奇有趣的、出人意料的發(fā)現(xiàn)。這種現(xiàn)象的癥結(jié)就在于,探索性研究和驗(yàn)證性研究的界限過于模糊。包括“根據(jù)結(jié)果構(gòu)建假設(shè)”在內(nèi)的諸多行為,在探索性研究中其實(shí)都不存在太大問題,畢竟探索性研究的目的就是發(fā)現(xiàn)更多想法,提出更多假設(shè),以供其他人驗(yàn)證。但在以驗(yàn)證假設(shè)為目的的驗(yàn)證性研究當(dāng)中,這些行為應(yīng)該被嚴(yán)格禁止。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
決戰(zhàn)時(shí)刻:美軍增兵一萬即將抵達(dá),伊朗公布海底光纜圖!

決戰(zhàn)時(shí)刻:美軍增兵一萬即將抵達(dá),伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
不打了!退出G3和G4!雷霆遭遇最大危機(jī)

不打了!退出G3和G4!雷霆遭遇最大危機(jī)

籃球教學(xué)論壇
2026-04-23 17:14:19
一雞爆火,老板直接累癱了

一雞爆火,老板直接累癱了

南風(fēng)窗
2026-04-23 16:11:15
最新公布:韓國兩戰(zhàn)機(jī)“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

最新公布:韓國兩戰(zhàn)機(jī)“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

環(huán)球時(shí)報(bào)國際
2026-04-23 20:42:17
我在日本生活了15年,娶過三任妻子,日本女人大多數(shù)都很物質(zhì)

我在日本生活了15年,娶過三任妻子,日本女人大多數(shù)都很物質(zhì)

千秋文化
2026-04-22 20:21:49
鴻蒙智行發(fā)布會被質(zhì)疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

鴻蒙智行發(fā)布會被質(zhì)疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

魯中晨報(bào)
2026-04-23 07:04:04
庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個(gè)重大錯(cuò)誤”,Apple Watch是最引以為豪的作品

庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個(gè)重大錯(cuò)誤”,Apple Watch是最引以為豪的作品

魯中晨報(bào)
2026-04-23 13:16:04
50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
李鴻武:榮威20年,從家庭到“家越”

李鴻武:榮威20年,從家庭到“家越”

AutoBusiness
2026-04-23 12:23:29
又抓一個(gè)!知名男星被判刑,整個(gè)事件太離譜了……

又抓一個(gè)!知名男星被判刑,整個(gè)事件太離譜了……

桌子的生活觀
2026-04-23 12:01:50
反超重慶!中國最強(qiáng)省會,逆轉(zhuǎn)了

反超重慶!中國最強(qiáng)省會,逆轉(zhuǎn)了

國民經(jīng)略
2026-04-23 11:44:00
外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀(jì)
2026-04-23 13:56:03
加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

懂球帝
2026-04-23 18:35:02
俄副外長:俄方獲邀以最高級別參加美國G20峰會

俄副外長:俄方獲邀以最高級別參加美國G20峰會

財(cái)聯(lián)社
2026-04-23 11:20:05
不裝了?馬斯克罕見承認(rèn):美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認(rèn):美國是第一,但第二到第十全都來自中國

大衛(wèi)聊科技
2026-04-23 12:13:36
特朗普“狂怒”滅掉了伊朗軍隊(duì)?美國官員悄悄說:不,并沒有!

特朗普“狂怒”滅掉了伊朗軍隊(duì)?美國官員悄悄說:不,并沒有!

國是直通車
2026-04-23 20:07:07
76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

夢錄的西方史話
2026-04-23 14:36:39
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
納斯達(dá)克中國金龍指數(shù)跌幅擴(kuò)大,現(xiàn)跌2.0%,最新報(bào)6874.98點(diǎn)

納斯達(dá)克中國金龍指數(shù)跌幅擴(kuò)大,現(xiàn)跌2.0%,最新報(bào)6874.98點(diǎn)

每日經(jīng)濟(jì)新聞
2026-04-23 22:00:07
李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

驅(qū)動中國
2026-04-23 18:56:09
2026-04-24 02:36:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

時(shí)尚
親子
房產(chǎn)
教育
軍事航空

李昀銳:林深見木

親子要聞

新華讀報(bào)|打乒乓球有助提高兒童注意力

房產(chǎn)要聞

三亞安居房,突然官宣!

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進(jìn)入關(guān)懷版