科學之路困難重重。 其實天下難事一大堆,烤出可口的法式長棍很難,記住每個朋友的生日很難,搞科研也很難。但是科學研究有一個特點,就是它的難度可以被量化:p值。p值可以幫助我們識別有顯著統(tǒng)計學意義的研究結果,不過想要得到較低的p值很難。 在醫(yī)療科學領域,具備統(tǒng)計學意義往往意味著提出了一個好的問題、有大量的患者樣本、并且能夠做好相關的分析和計算。提出好問題得夠聰明,大量的患者樣本得有足夠的資源,做好分析和計算則需要研究人員足夠勤奮,讓某個研究人員或者研究小組同時具備這些條件就難了。拿我個人來說,我就一直不明白冰箱里的那些存儲箱都是干嘛用的,更別說搞清楚臨床研究的整個工作流程了。 但不幸的是,當今的科學界對每一項研究的p值都非常重視,以確保這些p值能夠告訴他們想要得到的信息。研究所得的數據不僅應該意義重大,還應該可重復。不幸的是,不少研究結果往往是不可重復的。實際上,有一些人說我們現(xiàn)在正處于“可重復性危機”的漩渦之中。大量的研究表明,醫(yī)學和社會科學領域已經發(fā)表的大多數研究結果雖然在一開始取得了很好的p值,卻幾乎都是不可重復的。 那么為什么會出現(xiàn)這種危機呢?難道是因為科學界盛行欺騙和懶惰的不良風氣,想要解決危機就只能推翻科學界?可能這個問題比想象中的更為復雜,研究設計應該怎么做,真正可重復的科學結果到底是什么,學界應該就這些取得共識。 20世紀20年代,RonaldFisher首次提出了P值的使用標準,最初用于識別有統(tǒng)計學意義的結果。小于0.05的P值通常被用作閾值,有時候也會聽到這樣的解釋,“做出錯誤假設的幾率低于5%。”這種解釋是不準確的。它實際的意思是,“如果假設完全錯誤,那么得到這些結果(或者更極端的結果)的幾率低于5%”(定義p值還有很多更為精確的方式,但是這個應該就可以了)。雖然這兩種版本的解釋之間差異不大,但是卻十分重要。 舉個例子,假設你是星艦號的科學官,貨艙里裝著小麥與小黑麥,準備運往薛曼星系,星際聯(lián)邦和克林貢帝國正在爭奪那兒的主權。有一天,你在糧倉里發(fā)現(xiàn)了很多毛球族,毛球們吃掉了糧倉的糧食,而且其中一半的毛球已經死了。假設在毛球族生命周期已知的情況下,毛球死亡數量超過了我們的預期,那么糧食很有可能被克林貢人下毒了。接下來就應該進行統(tǒng)計檢驗了! 1000個毛球族中454個死亡,其他546個還活著。已知毛球族的壽命,以及艦上所有毛球族都是由上周帶來的兩個毛球繁衍而來的(毛球族繁殖速度非?欤G闆r下,死亡率不會超過10%。標準的統(tǒng)計測試會得出一個小于0.0001的p值,這決定了我們對毛球族死亡率的預估是否準確,不過對一大批已經死亡的毛球族進行長時間觀察的可能性很低。 P值小,就排除了毛球族按預期概率死亡的情況。這是否意味著克林貢人對糧食下了毒?因為p值很小,所以形勢似乎對他們不利,但是這不一定就意味著都是克林貢人的錯。前面也說到了,p值并不是為了檢驗我們的假設(毛球族死亡率高于正常水平,可能是因為這些邪惡的克林貢人)是否正確。相反,這個研究只是想要證明如果毛球族的生命周期是一定的,不太可能出現(xiàn)一半族群死亡的情況?赡芪覀冄芯康拿蜃逭脤儆趬勖^短的那一類,可能這種毛球族討厭小麥,也有可能是有人在中子等離子體流穿過貨艙的時候逆轉了它的的極性,導致時間出現(xiàn)了折疊(這一假設很有可能是正確的,所有的星際迷都可以作證)。換句話說,一個低p值并不意味著我們的假設是正確的,只是在提醒我們(目前)不要忽略它。 如果可供測試的毛球數量很少,也會得出具有誤導性的p值?赡艽蜷_糧倉的時候清理出了一部分毛球族,導致剩下的可供測量的毛球族數量很少,只找到了六個活著的毛球族以及四個已經死了的。考慮到我們可能再也找不到任何死毛球了,我們還是得出了一個重要的p值(p=0.0018)。然而我們還是可以提出這樣的疑問,因為我們只對少數的毛球族進行了測試,那么對于測試結果的準確性有多大的把握呢? 另一項測試表明,我們有95%的信心保證毛球族死亡的真實比例在10%至70%之間。因為我們預期自然死亡的毛球族占10%的毛球族,所以相對而言這個區(qū)間范圍還是挺大的。相反,當我們要對1000個毛球族進行測試的時候,毛球族95%的置信區(qū)間范圍死亡率為42%-48%。 這是在暗示這都是克林貢人搞的鬼嗎?我們有一些證據可以表明克林貢人阻礙了薛曼星系的殖民化(雖然證據至今還不是很明確),但是這跟當前科學界的可重復性危機有什么關系呢? 一,可重復性需要對大量的對象進行研究。我們已經發(fā)現(xiàn),即使是在p值很小的情況下,樣本的大小都會影響結果的準確性。除了p值之外,提供更多的參數逐漸成為現(xiàn)在發(fā)表科學研究的標準要求,列出置信區(qū)間將有助于我們規(guī)范研究的可靠性。這樣列出來之后,會發(fā)現(xiàn),如果只是對十個毛球族進行研究,那么得到的結果很難給人留下深刻的印象。在貿然攻打克林貢國之前,可能還得對更多的毛球族進行另外一次測試。當然,這一點對于臨床研究同樣適用。如果研究得到的P值好得令人詫異,多半的原因是因為樣本太小了。 二,可重復性需要一個良好的假設。在毛球族測試研究中,p值低并不意味著我們的假設就是對的。撇開等離子體流引起的時間褶皺理論,我們真正有信心的是毛球族的死亡可能與糧食有關。由于食用了那些糧食,所以毛球族死亡速度超過了預期,那些沒有吃的則安然無恙。在這種情況下,認為是克林貢人在搞破壞似乎是個合理的猜想,但是也有可能跟糧食本身有關,畢竟他們想建立殖民地的星球是一個新的空間混合體。 克林貢人是否在糧食中下了毒,糧食本身是否有問題,這兩個因素可能會影響我們重復毛球族研究的能力,這也是為什么說在遇到可重復性危機的時候干草叉也很實用的原因。糟糕的研究設計與分析都會降低一項研究的可重復性,即使是那種p值已經很低的研究。因此科學界就有義務找到一個更好的方法來激發(fā)適當的分析和研究的技術從而確?梢园l(fā)表可重復性更高的研究。 針對如何更好地做研究報告和研究設計以改善這一問題,最近已經有很多人提出了建議。這是一個好事,在沒有有效成果的研究上浪費錢(通常是公眾的錢)會阻礙我們探索科學真相的進程。所以那些訴諸“p黑客”的人,請使用正確的統(tǒng)計測試或者研究子集來反駁那個神奇的“p值<0.05”,注意一下我們的小情緒。 缺乏可重復性由多種原因引起的,可能也存在同樣多的解釋,研究人員的不稱職并不是唯一的原因。例如,繼續(xù)我們的太空小麥/毛球族研究可能也沒法證明克林貢人就是邪惡的糧食下毒犯。也許更多的研究會表明雜交小麥在太空中是不穩(wěn)定的從而分解成了對毛球族而言致命的毒藥(這也被證明會導致人身上難看的皮疹)。此外,毛球族可能比想象中的要更多樣化,部分種群在太空中容易病變,從而更容易受到太空小麥的毒害。因此,我們的研究是不可重復的,但是有用的。最初我們完全沒有想到雜交小麥會出問題;谒赖舻拿蜃迕劝l(fā)了一個想法,即其死亡可能是由于小麥有毒,我們最終針對雜交小麥、太空旅行和毛球族如何相互作用得出了一個復雜卻可重復的解釋。最初的研究對于深化最終發(fā)現(xiàn)太空小麥問題的研究很有必要。 舉一個更為現(xiàn)實的例子,我們曾經做過一項研究,主要研究預測癌癥風險的基因變異的可重復性。我們的重點并不在于可重復性,而是在于針對一國國民實施的基因腫瘤風險研究是否適用于另一個國家的人們。我們發(fā)現(xiàn),根據一項標準,那些研究通常無法適用于其他國家的人。大多數基因腫瘤風險研究無法在不同的民族中重復執(zhí)行。然而我們也發(fā)現(xiàn)有些基因變異的基本作用在不同民族之間具有共通性。另一項研究得出的p值可能低于0.05,但是在一組人群中得到的高風險標記物更容易預測另一組人群的高風險而不是低風險。 因此,這些“不可重復”的研究看起來還是有意義的。他們測試的遺傳標記還不能供臨床使用,但是它們都指向了相同的生物學效應,這些效應在臨床上可能就是有意義的。特別是,已經測試過的變異基因可能就是真正風險等位基因的標記物,或者非常接近,只是不完全符合研究等位基因的位置。 這就指出了一個很少被提及的、與可重復性危機相關的有趣問題:可重復性有多少才是正確的?這不僅僅是一個科學問題,也是一個倫理問題。接受低的可重復性意味著實施更難的研究,而且是在以實施大量結果不明了的研究為代價的前提下。獲取高可重復性則可以節(jié)省時間和金錢,但是卻意味著更多科學問題將沒法得到應有的答案。 正如我們所說,樣本容量太小是導致可重復性不足的關鍵性因素。針對小型群體所做的研究所得出的效果明顯會比現(xiàn)實世界中的大,因此導致可重復性低。因此有人提議說只有具有優(yōu)先級可能性的研究才應該被實施。根據這項標準,一項測量細微影響或者只影響一小部分的人的研究不應該被實施,例如能延長癌癥患者幾個月壽命的藥物研究。這成為了一個相關性越來越強的問題,特別是在癌癥研究中,因為我們發(fā)現(xiàn)很多疾病其實就是相關疾病的一個集合,每一種相關集合都只會影響一小部分人。 在研究死亡的毛球族(或者預測癌癥風險的變異基因)時,構思好的假設可能會遇到哪些困難,這一點值得考慮。實際上,初次提出的假設正確且可重復的幾率很小,而且初步研究可能也不會對得出預期結果提供太大的幫助。我們只能寄希望于它會引出下一項更好的研究。但是如果可重復性是衡量和實施研究的主要標準,那么這項研究根本就不會被執(zhí)行。 決定是否實施一項研究的標準應該是哲學性質的而不僅僅是科學性質的,意識到這一點很重要。難道科學研究的目標不是有效實現(xiàn)利益的最大化嗎?還是說,在受益的只是少數群體、可重復新較低的前提下,道德原則應該服從科學原則?前者可以被認定為是實用功利主義的一種表現(xiàn),認為最符合道德原則的行為才能惠澤大多數人,而且這種惠澤程度可以憑經驗衡量。這種方法的優(yōu)點是可量化,幾乎任何實用的事物(套用實用主義的一個哲學概念)都可以被量化。數字更適用于交流溝通,至少與模棱兩可的價值概念相比是這樣的。然而功利主義者有一個信念,即“實用”與“道德上正確”基本上是一樣的,這一信念也成了功利主義的根基。這種思維模式無法容許正義的存在。它指出任何帶有明顯自我犧牲、利他主義或博愛傾向的行為,如果符合道德原則,那么就應該為所有人謀福利。只為少數人謀福利的行就為是不符合道德原則的。這似乎是一種比較委婉的自我犧牲形式,但是考慮到研究經費的緊張情況,這并不是一個人可能會做出的最小犧牲。 科學之路苦難重重。我們不僅要在所有工作的最后得出一個好的p值,這就需要構思一個好的假設并且對足夠大的群體進行研究;我們還需要能夠利用哲學理論來捍衛(wèi)自己的研究。我們是否將自己局限于影響力大的研究,為此聚集大量的患者作為研究樣本,確保研究具有較高的可重復性,從而確保研究經費得到了高效率的利用?還是說,雖然研究的可重復性較低,只要存在讓人們受益的可能性,我們就應該進行研究?或者在假設處于構思的最初階段時,我們還沒有足夠的研究來證實需要對什么進行測試,那么我們是否可以在一個未知的領域重新進行研究? 提高研究效率有助于減少可重復性問題,而且在決定研究什么的時候不用擔心平等和公正的問題。但是顯然這不是一個非此即彼的決策過程。努力改善可重復性問題,或者至少突出重復實施研究過程中出現(xiàn)的問題,其出發(fā)點都是好的。然而將可重復性的門檻設置得過高也就違背了我們對科學的訴求。大多數人對科學的認知中都包含了實踐和對新的科學領域不斷的探索,研究中出現(xiàn)不可重復性沒準就是一條通往真理的必經之路。
(本文為Dr.Brain Ring 原創(chuàng))
科學界出現(xiàn)可重復性危機,不可重復未必就沒有意義 |