學(xué)術(shù)研究中,研究人員習(xí)慣用p值衡量實(shí)驗(yàn)數(shù)據(jù)的可靠性。當(dāng)p值小于0.05時(shí),意味著僅因偶然性產(chǎn)生的概率小于5%時(shí),結(jié)果具有統(tǒng)計(jì)顯著性。
但是,古德哈特定律指出當(dāng)指標(biāo)變成目標(biāo)后,就不再是一個(gè)好的指標(biāo)。P值就有這樣的特點(diǎn),許多研究中的p值并不可靠,甚至是被操縱的結(jié)果。
p值操縱
我們經(jīng)常用0.05作為p值的臨界值(純粹是因?yàn)檫@是慣例),表示一個(gè)結(jié)果在統(tǒng)計(jì)學(xué)上具有顯著性。換句話說(shuō),當(dāng)p < 0.05 時(shí),即僅因偶然性產(chǎn)生的概率小于5%時(shí),結(jié)果具有統(tǒng)計(jì)顯著性。
研究人員更有興趣閱讀那些報(bào)告有統(tǒng)計(jì)意義的“陽(yáng)性”結(jié)果,而不是無(wú)意義的“陰性”結(jié)果的文章,因此作者和期刊都強(qiáng)烈希望呈現(xiàn)有意義的結(jié)果。為什么研究人員和期刊對(duì)陰性結(jié)果不感興趣呢?我們還不完全清楚,但有很多可能的原因,其中一些可能與我們自己的心理有關(guān)。對(duì)我們大多數(shù)人來(lái)說(shuō),陰性結(jié)果有點(diǎn)兒令人厭煩?!斑@兩組人沒有區(qū)別。”“這種治療不會(huì)改變結(jié)果。”“知道x不能幫助我們預(yù)測(cè)y?!弊x到這樣的句子,我們會(huì)覺得又回到了起點(diǎn),一無(wú)所獲。
陰性結(jié)果也可能與無(wú)法進(jìn)行技術(shù)實(shí)驗(yàn)有關(guān)??栐?span id="vtji6h1njuw" class="candidate-entity-word" data-gid="17325364">微生物實(shí)驗(yàn)室從事研究時(shí),經(jīng)常不能在瓊脂平皿上培養(yǎng)出他研究的微生物大腸桿菌。這不是一個(gè)有趣的科學(xué)結(jié)果,而是證明了他在實(shí)驗(yàn)室環(huán)境中能力嚴(yán)重不足。
第三種可能是否定命題比比皆是。陳述一個(gè)不正確的假設(shè)很容易。把單詞隨意組合成句子,它們通常都是錯(cuò)誤的,例如:“郁金香咬。”“雪花融化鐵?!薄按笙笫区B?!痹诤A考倜}中尋找真命題,無(wú)異于大海撈針。就像古老的棋類游戲《戰(zhàn)艦》一樣。棋盤上的大部分空間都是開放水域,因此,如果沒打中,就學(xué)不到很多東西。但是一旦擊中,就會(huì)學(xué)到很多東西——以此為基礎(chǔ),還可以學(xué)到更多。
出于所有這些原因,陰性結(jié)果不會(huì)得到大量的關(guān)注。我們從來(lái)沒有見過(guò)一個(gè)人僅僅因?yàn)榇笳勊趯?shí)驗(yàn)室里做不到的事情而獲得一份工作或贏得某個(gè)獎(jiǎng)項(xiàng)。
科學(xué)家?guī)缀醵疾粫?huì)為了得到想要的p 值而進(jìn)行科學(xué)欺詐,但仍有很多不易界定的破壞科學(xué)過(guò)程誠(chéng)實(shí)性的行為。研究人員有時(shí)會(huì)嘗試不同的統(tǒng)計(jì)假設(shè)或測(cè)試,直到他們找到一種方法,可以讓他們的p 值跨過(guò)具有統(tǒng)計(jì)學(xué)意義的臨界值p = 0.05。這就是所謂的p值操縱,是一個(gè)十分嚴(yán)重的問(wèn)題。有時(shí)他們會(huì)修改測(cè)試取得的結(jié)果。一項(xiàng)臨床試驗(yàn)本來(lái)是要測(cè)量某種新藥對(duì)5年存活率的影響,但在沒有存活率發(fā)現(xiàn)任何變化后,研究人員可能會(huì)挖掘數(shù)據(jù),找出3年后患者生活質(zhì)量明顯改善的地方。
我們?cè)诜治鏊占臄?shù)據(jù)時(shí),經(jīng)常需要做出大量的選擇,確定我們的研究到底應(yīng)該包括哪些內(nèi)容。
例如,假設(shè)我想研究選舉結(jié)果對(duì)美國(guó)止痛藥的消費(fèi)有什么影響,我可能會(huì)將選舉結(jié)果制成表格,收集止痛藥使用情況的調(diào)查報(bào)告,并獲取止痛藥在一段時(shí)間內(nèi)的銷售數(shù)據(jù)。這里有很多自由度。我看什么選舉呢?美國(guó)總統(tǒng)、參議員、眾議員、州長(zhǎng)、州參議員、州眾議員、市長(zhǎng)、市議員選舉,還是別的?關(guān)于消費(fèi)情況,我看男性還是女性,還是兩者都看?看年輕人、中年人、65 歲以上的人、青少年,還是所有這些人的消費(fèi)情況?我觀察的是新上任的民主黨候選人的影響力,還是新上任的共和黨候選人的影響力?我觀察的是被人看好的候選人上任造成的影響,還是不被看好的候選人上任造成的影響?換句話說(shuō),我需要控制止痛藥使用者的政治立場(chǎng)嗎?什么才算是止痛藥呢?阿司匹林、艾德維爾、泰諾、氫可酮、奧施康定,這些算不算止痛藥?我是要比較同一個(gè)地方在選舉前后的止痛藥使用情況,還是只比較選舉后不同地方的使用情況?在分析數(shù)據(jù)之前,我需要做大量的決定。考慮到這么多的組合,即使選舉結(jié)果和止痛藥的使用之間沒有因果關(guān)系,這些組合中也很有可能至少有一個(gè)組合會(huì)顯示出有統(tǒng)計(jì)顯著性的結(jié)果。
為了避開這個(gè)陷阱,研究人員應(yīng)該在查看數(shù)據(jù)之前明確說(shuō)明所有這些選擇,然后測(cè)試他們事先承諾的那個(gè)假設(shè)。例如,我有可能決定測(cè)試那些達(dá)到投票年齡的成年男性和女性,看看他們是否會(huì)在看好的州長(zhǎng)候選人選舉失敗后服用更多的止痛藥?;蛘?,我可能會(huì)測(cè)試在共和黨人取代民主黨人當(dāng)選美國(guó)眾議院議員的那些地區(qū),看看兒童用泰諾的銷量是否會(huì)下降。無(wú)論我選擇看什么,重要的是我在分析數(shù)據(jù)之前就做出明確說(shuō)明。否則,通過(guò)觀察足夠多的不同假設(shè),我總會(huì)得到一些有顯著性的結(jié)果,即使我找不到真正的模式。
但是,我們不妨從研究者的角度看一看。假設(shè)你剛剛花了幾個(gè)月的時(shí)間,收集了大量數(shù)據(jù)。你測(cè)試了你的主要假設(shè),最終得到了一些看上去有希望但不具有顯著性的結(jié)果。你知道,就這樣保持不變的話,不要說(shuō)優(yōu)秀期刊,甚至其他所有期刊都不會(huì)發(fā)表你的研究成果。但你認(rèn)為你的假設(shè)肯定是成立的,也許只是沒有足夠的數(shù)據(jù)支撐。所以你繼續(xù)收集數(shù)據(jù),直到你的p值降到0.05 以下,然后你立即停止收集數(shù)據(jù),以免它變回到閾值以上。
或者你可以嘗試一些其他的統(tǒng)計(jì)測(cè)試。由于數(shù)據(jù)接近顯著性, 選擇正確的測(cè)量方法和測(cè)試,也許能讓你跨過(guò)p= 0.05 這道關(guān)卡。當(dāng)然,稍加修改,你就找到了一種能給你帶來(lái)顯著結(jié)果的方法。
或者你的假設(shè)似乎只對(duì)男性成立,而有統(tǒng)計(jì)意義的模式被包含在你的樣本里的女性淹沒了。你一看,哎呀,如果只看男性,你會(huì)得到一個(gè)有統(tǒng)計(jì)顯著性的結(jié)果。怎么辦?放棄整個(gè)項(xiàng)目,放棄數(shù)千美元的投資,讓你的研究生再推遲6個(gè)月畢業(yè)……還是只記錄男性的研究結(jié)果,然后提交給優(yōu)秀期刊?在這些情況下,為選擇后一種做法找一個(gè)理由似乎并不是那么難。你可能會(huì)對(duì)自己說(shuō):“我確信這種趨勢(shì)確實(shí)存在。我從一開始就在考慮將女性排除在研究之外?!?/span>
祝賀你。你成功地對(duì)你的研究進(jìn)行了p 值操縱。
假設(shè)有1000名在誠(chéng)實(shí)性方面無(wú)可挑剔的研究人員,他們?cè)谌魏吻闆r下都會(huì)拒絕p 值操縱。這些品德高尚的學(xué)者測(cè)試了上千個(gè)關(guān)于政治上取得的勝利和止痛藥的使用之間是否存在關(guān)系的假設(shè),但所有這些假設(shè)都是不成立的。在p= 0.05 這個(gè)水平上,單憑碰運(yùn)氣,這些假設(shè)中就有大概50個(gè)假設(shè)會(huì)找到統(tǒng)計(jì)學(xué)上的支持。這50 名幸運(yùn)的研究人員將研究結(jié)果寫下來(lái),發(fā)給期刊,然后被期刊接受并發(fā)表。在其余950名研究人員中,只有少數(shù)人會(huì)不辭辛苦地寫下他們的陰性結(jié)果,其中只有幾個(gè)人能夠發(fā)表他們的陰性結(jié)果。
讀者查閱文獻(xiàn)時(shí),會(huì)看到有50項(xiàng)研究表明政治結(jié)果和止痛藥消費(fèi)之間存在聯(lián)系,也許還有為數(shù)不多的研究稱沒有發(fā)現(xiàn)任何聯(lián)系。讀者會(huì)很自然地得出結(jié)論:政治對(duì)止痛藥的使用有很大的影響,而那些失敗的研究肯定是測(cè)量了錯(cuò)誤的量,或者是在尋找模式時(shí)出了問(wèn)題。但現(xiàn)實(shí)恰恰相反,兩者之間沒有關(guān)系。之所以看起來(lái)有關(guān)系,純粹是人為因素導(dǎo)致的——哪些結(jié)果值得發(fā)表是由人決定的。
本質(zhì)上講,問(wèn)題在于論文是否有發(fā)表的機(jī)會(huì)受它所報(bào)告的p值影響。因此,我們一頭撞上了選擇偏倚的問(wèn)題。得以發(fā)表的那些論文是全部實(shí)驗(yàn)的一個(gè)有偏差的樣本。在文獻(xiàn)中,有統(tǒng)計(jì)意義的結(jié)果被過(guò)度表現(xiàn),而沒有統(tǒng)計(jì)意義的結(jié)果則表現(xiàn)不足。沒有產(chǎn)生顯著性結(jié)果的實(shí)驗(yàn)數(shù)據(jù)最終被科學(xué)家扔進(jìn)文件柜里(現(xiàn)在則是被扔進(jìn)文件系統(tǒng)中)。這就是所謂的抽屜問(wèn)題(file drawer effect)。
還記得古德哈特定律嗎?“指標(biāo)變成目標(biāo)后,就不再是一個(gè)好的指標(biāo)。”從某種意義上說(shuō),p值就具有這個(gè)特點(diǎn)。因?yàn)閜值低于0.05對(duì)于論文發(fā)表來(lái)說(shuō)是必不可少的,所以p值不再是衡量統(tǒng)計(jì)支持的好指標(biāo)。如果科學(xué)論文是否發(fā)表與p值無(wú)關(guān),那么p值仍將是一個(gè)有效指標(biāo),可以衡量推翻原假設(shè)時(shí)得到統(tǒng)計(jì)支持的程度。但是,由于期刊明顯偏好那些p值低于0.05的論文,因此p值已經(jīng)失去了原先具有的用途。
2005 年,流行病學(xué)家約翰·約阿尼迪斯在一篇文章中總結(jié)了抽屜問(wèn)題的后果,這篇文章的標(biāo)題頗有挑釁性:“為什么發(fā)表的研究成果大多是虛假的”。為了解釋約阿尼迪斯的觀點(diǎn),我們需要稍微偏離主題,探究一個(gè)被稱為基率謬誤的統(tǒng)計(jì)陷阱。
基率謬誤
假設(shè)你是醫(yī)生,正在治療一位擔(dān)心自己去緬因州釣魚時(shí)染上萊姆病的年輕人。釣魚歸來(lái)以后,他感覺很不舒服,但沒有萊姆病特有的環(huán)形紅斑。為了讓他放心,你同意檢查他的血液中是否有萊姆病致病菌抗體。
令你們沮喪的是,測(cè)試結(jié)果呈陽(yáng)性。測(cè)試本身相當(dāng)準(zhǔn)確,但也不是100%的準(zhǔn)確,有5%的概率出現(xiàn)假陽(yáng)性。那么,病人患萊姆病的概率有多大呢?
許多人,包括許多醫(yī)生,都認(rèn)為答案是大約95%。這是不正確的。沒有萊姆病的人檢測(cè)呈陰性的概率是95%,而你想知道的是檢測(cè)結(jié)果呈陽(yáng)性的人患萊姆病的概率。事實(shí)證明,這個(gè)概率很低,因?yàn)槿R姆病非常罕見。在萊姆病流行的地區(qū),每1000人中只有1人被感染。假設(shè)我們檢測(cè)1 萬(wàn)人,那么可以預(yù)計(jì)有大約10個(gè)真陽(yáng)性和大約0.05×10 000=500個(gè)假陽(yáng)性。在那些檢測(cè)呈陽(yáng)性的人中,只有不到1/50 的人真的被感染了。因此,即使檢測(cè)呈陽(yáng)性,患病概率也不會(huì)超過(guò)2%。
這種混淆(以為病人有95%的概率被感染,而實(shí)際上不到2%) 應(yīng)該是一個(gè)常見的錯(cuò)誤。這其實(shí)是我們的“老朋友”檢察官謬誤,不過(guò)它換了一種表現(xiàn)形式。我們有時(shí)稱其為基率謬誤,因?yàn)樵诮忉寽y(cè)試結(jié)果時(shí),忽略了群體中患這種疾病的基礎(chǔ)比率。
如果測(cè)試的是一種非常常見的情況,那么基率謬誤不是什么大問(wèn)題。假設(shè)你在為一位來(lái)自美國(guó)上中西部地區(qū)的年輕白人女性治療胃病時(shí),決定檢查她是否有幽門螺桿菌感染。幽門螺桿菌是一種與消化性潰瘍有關(guān)的胃病病原體。與萊姆病的抗體檢測(cè)一樣,約5%未感染者的尿素呼氣試驗(yàn)結(jié)果呈陽(yáng)性。如果你的病人檢測(cè)呈陽(yáng)性,那么她攜帶幽門螺桿菌的可能性有多大呢?也是1/50 嗎?不對(duì),這次的可能性要大得多,因?yàn)橛拈T螺桿菌是一種常見病原體。在美國(guó),大約20%的白種人攜帶幽門螺桿菌。假設(shè)有1萬(wàn)人接受這種病原體的檢測(cè),那么你會(huì)看到大約2000個(gè)真陽(yáng)性結(jié)果,剩下的8000人中,這個(gè)概率大約為5%,也就是大約400人會(huì)得到假陽(yáng)性結(jié)果。因此,在幽門螺桿菌檢測(cè)呈陽(yáng)性的美國(guó)白種人中,大約5/6 的人真的攜帶這種病菌。
發(fā)表偏倚
說(shuō)完這些,我們繼續(xù)討論約阿尼迪斯的觀點(diǎn)。在“為什么發(fā)表的研究成果大多是虛假的”這篇論文中,約阿尼迪斯對(duì)科學(xué)研究和醫(yī)學(xué)檢測(cè)結(jié)果解釋進(jìn)行了類比。他認(rèn)為,由于發(fā)表偏倚,大多數(shù)陰性研究結(jié)果都沒有發(fā)表,因此我們?cè)谖墨I(xiàn)中看到的大多是陽(yáng)性結(jié)果。如果科學(xué)家測(cè)試的是不可能的假設(shè),那么大多數(shù)陽(yáng)性結(jié)果應(yīng)該都是假陽(yáng)性,這就好像萊姆病檢測(cè)結(jié)果——如果沒有其他風(fēng)險(xiǎn)因素,陽(yáng)性檢測(cè)結(jié)果大多是假陽(yáng)性。
沒錯(cuò)兒,約阿尼迪斯就是這樣想的。他的數(shù)學(xué)計(jì)算無(wú)可爭(zhēng)論。從他的模型來(lái)看,他的結(jié)論也是正確的。他還可以從我們之前討論過(guò)的論文中得到一定的經(jīng)驗(yàn)支持:那些論文表明,許多發(fā)表在優(yōu)秀期刊上的實(shí)驗(yàn)是無(wú)法復(fù)證的。如果這些實(shí)驗(yàn)的許多陽(yáng)性結(jié)果都是假陽(yáng)性,就正好符合我們的預(yù)料。
值得商榷的是約阿尼迪斯的假設(shè)。要使大多數(shù)發(fā)表的成果都是錯(cuò)誤的,科學(xué)實(shí)驗(yàn)就必須像罕見疾病一樣:極不可能產(chǎn)生真陽(yáng)性結(jié)果。但科學(xué)與罕見疾病不同,因?yàn)榭茖W(xué)家可以選擇他們想要驗(yàn)證的假設(shè)。我們已經(jīng)看到,科學(xué)家很好地適應(yīng)了所在專業(yè)領(lǐng)域的酬償結(jié)構(gòu):獲得酬勞的主要途徑是發(fā)表有意義的研究成果,而陰性結(jié)果很難發(fā)表。因此,我們可以預(yù)料科學(xué)家測(cè)試的假設(shè)雖然尚未確定,但有合理的可能性是成立的。這讓我們想到幽門螺桿菌的例子,大多數(shù)的陽(yáng)性結(jié)果都是真陽(yáng)性。約阿尼迪斯是過(guò)于悲觀了,因?yàn)樗麑?duì)研究人員決定檢驗(yàn)的各種假設(shè)做出了不符合實(shí)情的假設(shè)。
當(dāng)然,這都是理論上的猜測(cè)。如果我們真的想衡量發(fā)表偏倚的嚴(yán)重性,就需要知道:1)被測(cè)試的假設(shè)中有多大比例是正確的,2)有多大比例的陰性結(jié)果被發(fā)表了。如果兩個(gè)比例都很高,我們就不用擔(dān)心。如果兩者都很低,那就有問(wèn)題了。
我們?cè)f(shuō),科學(xué)家傾向于測(cè)試那些大概率是正確的假設(shè)。這種大概率可能是10%、50%或75%,但不太可能是1%或0.1%。那發(fā)表陰性結(jié)果這個(gè)方面呢?發(fā)表得多嗎?在整個(gè)科學(xué)領(lǐng)域,發(fā)表的研究結(jié)果中大約有15%是陰性。在生物醫(yī)學(xué)領(lǐng)域,這個(gè)比例是10%。在社會(huì)心理學(xué)領(lǐng)域,這個(gè)比例僅為5%。問(wèn)題是,我們無(wú)法從這些數(shù)據(jù)中得知,這到底是因?yàn)樾睦韺W(xué)家更不可能發(fā)表陰性結(jié)果,還是因?yàn)樗麄冞x擇了更有可能產(chǎn)生陽(yáng)性結(jié)果的實(shí)驗(yàn)。我們真正想知道的不是陰性結(jié)果在發(fā)表的結(jié)果中占的比例,而是陰性結(jié)果被發(fā)表的比例。
但是,如何才能知道這個(gè)比例呢?我們必須想辦法調(diào)查所有未發(fā)表的實(shí)驗(yàn)結(jié)果,但這些結(jié)果往往被扔進(jìn)了抽屜里。美國(guó)食品藥品監(jiān)督管理局(FDA)的埃里克·特納找到了一個(gè)巧妙的方法來(lái)解決這個(gè)問(wèn)題。美國(guó)的法律規(guī)定,任何研究團(tuán)隊(duì),只要進(jìn)行臨床試驗(yàn)(用人作為實(shí)驗(yàn)對(duì)象來(lái)測(cè)試治療結(jié)果的試驗(yàn)),都必須向FDA 登記報(bào)備,提交文件并解釋試驗(yàn)是要測(cè)試什么,試驗(yàn)將如何進(jìn)行,以及結(jié)果如何測(cè)量。一旦試驗(yàn)完成,團(tuán)隊(duì)還需要向FDA 報(bào)告試驗(yàn)結(jié)果。不過(guò),他們并沒有被要求必須在科學(xué)期刊上發(fā)表研究結(jié)果。
這個(gè)制度為特納和同事們統(tǒng)計(jì)某一特定研究領(lǐng)域已發(fā)表和未發(fā)表試驗(yàn)提供了便利。特納列出了74 個(gè)評(píng)估12 種不同抗抑郁藥物療效的臨床試驗(yàn),其中51 個(gè)試驗(yàn)的結(jié)果已經(jīng)發(fā)表,包括48 個(gè)陽(yáng)性結(jié)果(藥物有效)和3個(gè)陰性結(jié)果??吹竭@些已發(fā)表的文獻(xiàn)后,任何一名研究人員都會(huì)認(rèn)為這些抗抑郁藥物通常是有效的。但在調(diào)查最初登記的所有實(shí)驗(yàn)后,F(xiàn)DA發(fā)現(xiàn)情況并不是人們預(yù)想的那樣。一共74個(gè)試驗(yàn),其中38 個(gè)產(chǎn)生了陽(yáng)性結(jié)果,12 個(gè)產(chǎn)生了可疑結(jié)果,24個(gè)產(chǎn)生了陰性結(jié)果??吹竭@些數(shù)字,我們有可能得出一個(gè)更悲觀的結(jié)論:似乎只有一部分抗抑郁藥物在某些情況下可以起到一定作用。
這是怎么回事?為什么成功率為51% 的臨床試驗(yàn),最終在94% 的發(fā)表論文中被報(bào)告為成功呢?一個(gè)原因是,幾乎所有的陽(yáng)性結(jié)果都被發(fā)表了,而可疑或陰性結(jié)果中只有不到1/2被發(fā)表。另一個(gè)也是更重要的原因是,在已發(fā)表的14 個(gè)可疑或陰性結(jié)果中,有11 個(gè)被重新定義為陽(yáng)性結(jié)果。
就像水手只能看到冰山露出水面的部分一樣,研究人員在科學(xué)文獻(xiàn)中只能看到陽(yáng)性結(jié)果。因此,我們很難知道水底下有多少陰性結(jié)果。它們很難發(fā)表,即使得以發(fā)表,也常常被偽裝成陽(yáng)性結(jié)果。如果藏在水下的結(jié)果不多,那么我們強(qiáng)烈支持被測(cè)試的任何結(jié)果。但是, 如果只能看到表面上的那些結(jié)果,而水底下還有大量的結(jié)果我們無(wú)法看到,我們就有可能受到嚴(yán)重誤導(dǎo)。
幸運(yùn)的是,有一些方法可以估計(jì)水面下的冰山大小。元分析(同時(shí)查看多項(xiàng)研究)就是最有效的方法之一。通過(guò)元分析,我們就可以知道發(fā)表的文獻(xiàn)是否可能代表所有的試驗(yàn),知道它們是否反映了一些有問(wèn)題的行為,比如p 值操縱、發(fā)表偏倚。如何有效地做到這一點(diǎn),已經(jīng)成為統(tǒng)計(jì)學(xué)研究的一個(gè)熱門領(lǐng)域。
撰文丨卡爾·伯格斯特龍(Carl T. Bergstrom)(美國(guó)華盛頓大學(xué)生物系教授)、杰文·韋斯特(Jevin D. West)(美國(guó)華盛頓大學(xué)信息學(xué)院副教授)
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。