日誌

(轉)真理在縮水——現代科學研究方法並不盡善盡美？

熱度 7已有 2121 次閱讀2011-8-3 13:36 |個人分類:網文摘錄| 科學, 研究方法

很長，但很值得細讀。

譯者：紅色甲殼蟲
校對：橘子
原文：點擊這裡
作者：Jonah lehrer
——科學界開始重新審視那些曾被廣泛證明和接受的科學研究結果。

2007年9月18日，布魯塞爾。幾十位神經科學家，精神病醫生以及製藥公司執行官在某酒店會議室參加研討會，這裡，與會人員將聽到一條讓他們不安的資訊。資訊是關於90年代初進入市場的非典型抗精神病藥，這些藥也被稱作第二代精神病類藥物。其中，商品名為安律凡／安立復（Abilify），思瑞康（Seroquel）和再普樂（Zyperaxa）的藥物曾參與了幾個大型精神分裂症臨床實驗研究，每個都表現不俗：參與臨床試驗的精神病患者的症狀有了戲劇化的改善。因此，第二代抗精神病類藥物成為製藥公司一個盈利快速增長點。2001年，禮來製藥公司（Eli lily）的再普樂（Zyprexa）的收入超過了同門師兄抗憂鬱藥百憂解（prozac），成為禮來公司最吸金的明星藥物。

但是，布魯塞爾研討會公佈的數據揭示了一個異常現象：藥物的療效在勻速下降。最近的一項研究發現，第二代抗精神病類藥物的療效竟大不如前：與20年前的第一次臨床試驗相比，某些藥物的療效還不到以前的一半。很多人開始認為，第二代抗精神病藥物的表現已經不如那些50年代投入使用的第一代抗精神病藥物。伊利諾伊大學芝加哥分校的精神病學教授約翰·戴維斯（John Davis）認為『「事實上，有時候，第二代抗精神病藥物的表現甚至更糟糕。』

就藥物研發而言，只有反覆的研究和測試才能確定某一藥物的療效。研究必須由不同的科學家在不同的實驗室分別開展：研究人員不斷地重複實驗，而後發表研究結果。而且，重複性驗證是現代科學研究的基礎。它也是科學界自我約束的利器：重複性驗證可以減少主觀干擾。比如，科學家通常知道自己想要什麼樣的結果，他們的下意識會多多少少影響實驗數據。而重複性驗證可以甄別這些主觀影響，並促使學術界改正主觀因素導致的錯誤結果。

然而現在，事情有了新的變化。那些經過重複性驗證並且發展成熟的假設正逐漸失去可信度，它們正在失去做為「事實」的資格。你想想，那些研究結果，也被多方證明為真了，也寫進教科書了，突然間就遇到攔路虎說：你不真。科研人員該多受打擊？目前，可信度喪失的現象還沒有正式名字，但從心理學到生態學的眾多領域都出現過這種現象。在醫學領域更為普遍：不僅前文提到抗精神病藥物，其他如心臟支架，維生素E和抗憂鬱藥等醫療方法的研究都遭遇了這個效應。戴維斯教授有一個即將公佈的分析研究證明，抗憂鬱藥物的療效近幾十年間降低了三倍之巨。

對於芸芸科學研究從業者而言，這個現象特別棘手，因為它揭露出了科學研究過程的問題：重複性驗證到底靠譜嗎？如果重複性驗證是區別科學和假科學的試金石，而現在這款試金石出現質量問題，那麼，我們應該如何處理通過試金石測試而現在存疑的科研結果？我們應該相信哪一方，繼續信任重複性驗證還是放棄一切存疑的結果？而且，實驗研究是科學界無所不摧的利器：早期現代哲學家佛朗西斯·培根（Francis Bacon）--也是現代科學方法的開拓者，曾宣稱實驗是科學研究的精華，因為實驗允許我們向客觀世界提問。但是，現在客觀世界開始亂給答案。

1980年代，華盛頓大學的在讀研究生菜鳥喬納森·斯庫勒（Jonathan Schooler）發現了語言和大腦記憶的關係中不為人知的另一面。此前，人們普遍認為用語言描述可以強化人的記憶。針對此「迷信」，喬納森·斯庫勒（Jonathan Schooler）創意地設計了一個實驗研究，並證明此迷思為偽（譯者注1）。他將被試者分為兩組：第一組被試觀察人臉，然後用語言描述；而第二組被試觀察人臉後，不需要語言描述。隨後，斯庫勒測試了兩組被試的人臉記憶情況。他發現第一組記憶效果不如第二組，也就是說用語言描述人臉特徵並沒有強化記憶臉譜。喬納森·斯庫勒給這個現象起名為「 verbal overshadowing」，中文對應為語言屏蔽（效應）（譯者注2）。（譯者：這一效應被認為和目擊證人的證詞通常不靠譜的現象有關，因為目擊證人在向警方描述事件的時候，描述這一需要語言功能的過程影響了目擊證人的記憶功能）

喬納森·斯庫勒本人因此成為了一顆學術新星，他的語言屏蔽效應論文於1990年發表後，已經被引用了400多次。不久之後，斯庫勒將語言屏蔽效應模型擴展到其他研究項目，比如記憶酒的味道，品定草莓醬，玩益智玩具等等。每一個研究項目都證實，如果被試把腦中所想說出來，他們的測試表現會很差。

但當斯庫勒準備將這些新的研究結果投給有聲望的學術期刊上時，他卻開始有些擔心：因為他後來很難重複自己的早期結果。斯庫勒本人說：「語言屏蔽效應的重複性實驗中的確檢測到了語言屏蔽效應，但它的效果卻不大，似乎語言屏蔽效應正在喪失作用力」。起初，斯庫勒曾認為他在實驗方法設計和統計分析法方面犯了錯誤，但經過排查他又找不到錯誤。最後他推測認為，可能最早的一批被試自身比較敏感，語言遮蔽效應對他們的影響比較大。（前文提到的精神病學教授約翰·戴維斯（John Davis），推測第二代精神病類藥物療效的下降很可能是出於相似原因：最新的療效研究中被試的精神疾病症狀可能並不嚴重，而早期臨床研究中被試的症狀比較嚴重。即使病人經過治療後完全康復，新病人症狀的改善也不如早期病人多。）「這個解釋並不很給力，」斯庫勒說：「我的一位導師曾說過，我真正犯的錯誤就是試圖重複我的實驗，他說重複實驗只會讓我失望。」

後來，斯庫勒試圖不再糾結這個問題，他的同事也言之鑿鑿地說，科研中這種低重複性的事兒經常發生。後來的後來，斯庫勒事業得意家庭美滿，但他還在糾結實驗低重複性問題。 1995年，到底意難平的斯庫勒首次重複了1990年的語言屏蔽效應研究，他發現，語言屏蔽效應縮水了30％。第二年他再一次重複此研究，發現語言屏蔽效應又縮水了30％。其他實驗室重複了斯庫勒的實驗，也遇到了類似的問題。語言屏蔽效應的影響力明顯地衰弱了。斯庫勒說：「這讓我非常挫敗，就好像大自然恩賜我一個非常棒的成果，但現在它反悔了想要收回去。」私下裡，斯庫勒把問題歸結為是「自然界的習得性麻木」。就好像某一個體逐漸適應了某一個外界刺激之後漸漸對這個刺激麻木無反應了。斯庫勒說：「習得性麻木解釋了為什麼你有時不會注意到熟悉背景中的個別物體。這個變化其實是不可避免的，所以我開始淡定，甚至開玩笑說這其實是大自然開始對我的研究產生了習得性麻木，我想它只是針對我。」

現在斯庫勒博士是加州大學聖芭芭拉分校的終身教授，他有著黑色捲髮和淡綠色眼睛，還有那種輕鬆的神態，就好像他住在自己最喜歡的海灘附近似的。接受採訪時，他會越說越走題：他可能以記憶話題開場，可突然又跳到了威廉姆·詹姆斯的名言，而這個名言又引發了他大談特談內省的重要性。此後不久，我們又開始看他蘋果手機裡火人節的照片，這張照片才將我們的話題引回到了記憶的脆弱本質。

現在語言屏蔽效應理論已經被廣泛接受：比如它經常用於目擊證人作證等場合中。斯庫勒博士還是對自己的遭遇有一些不平，「我知道我早該向前看，」他說，「我真的應該停止糾結了，但我就是控制不住自己。」那是因為他深信他自己已經被一個嚴重的問題絆住了，而且這個問題也影響著心理學發展。

早在19世紀30年代，這種奇妙的現象就開始「戲弄」科研人員了。比如，杜克大學的心理學家約瑟夫班克斯萊茵（Joseph Banks Rhine）曾研究超感知覺（extrasensory perception／ESP）存在的可能性。萊茵設計了自己的研究工具齊納牌—一套齊納牌共有25張，五張一組，一共五組，五組分別印有五種不同的符號。實驗過程是：研究人員從牌堆裡抽出一張，要求被試猜測抽出的牌印的符號是什麼。大多數被試都能如預期地保證20％的正確率（通俗的說，就是五猜一，隨便亂猜就能保證1/5也就是20％的正確率）。但在首批實驗中，一名叫亞當林茨邁耶（ Adam Linzmayer）的本科生竟然達到了50%的正確率。更不可思議的是：林同學曾連續猜對９次，而這事的概率理論上是二百萬分之一。但林同學就這麼小概率了三次（此時的林茨邁耶同學比章魚保羅還神，因為保羅不過是每次二猜一）。

萊茵記錄了林同學的奇異表現並且準備就此發表幾篇論文。但是，當萊茵開始認可超感知覺存在可能性的時候，超級英雄林同學卻突然喪失了他的賭神天賦。1931和1933年間，林茨邁耶同學又猜了幾千次牌，但他的正確率已經降到與常人無異。項目主持人萊茵不得不承認：林茨邁耶同學的超感知能力的確急劇下降。當然，林同學的故事並不是個案，萊茵和其他研究超感知覺的學者都記錄到了相似的案例。萊茵將這種現象---效應量隨時間流逝而戲劇般下降---命名為遞減效應（Decline effect）。

斯庫勒教授對萊茵的研究困境很著迷，因為他找到了一個同伴：另一個遭遇遞減效應的悲催學者；而且萊茵的研究也經常悲劇。2004年，斯庫勒教授開始模仿萊茵的研究，諷刺的是，他試圖重複實驗的不可重複性，也就是說，斯庫勒的目的就是實驗重複不出來。同時，為了表達對萊茵研究興趣的尊敬，斯庫勒教授決定研究另一種心理玄學現象－－預知能力（precognition）。他的實驗設計是：被試們首先看到一組圖片在眼前快閃，隨後他們會被要求指認出來圖片。當然，大多數被試並沒有記住圖片，因為圖片閃現的時間太短，來不及在大腦中留下印象。隨後，斯庫勒隨機選擇圖片中的一半播放給被試，並測試被試指認圖片的結果。他想知道：那些被播放兩次的圖片，在第一次播放的時候，被指認出來的概率會不會更大。也就是說，被試會不會「提前感知了」第二次看到的圖片，而在第一次看圖片的時候就指認出來。第二次觀看圖片會不會逆時間流回去影響第一次指認圖片結果？

這個假設的瘋狂之處在於，斯庫勒知道預知力沒有任何科學依據。可這次他並不是要驗證超感知覺能力，而是要測試遞減效應。斯庫勒說：「剛開始時，如我們預期的，數據看起來很喜人，但我不能相信我們發現了那麼多預知力顯靈的例子，但隨著實驗的進行，遞減效應開始顯靈了：效應量開始下降。（效應量是統計學中用于衡量處理效應大小的指標。）課題組招募到兩千多名本科生參與實驗。斯庫勒說，「實驗進行到最後，我們的結果看起來與萊茵的結果無異，像萊茵一樣，我們「發現」了預知力存在的「證據」，這個發現曇花一現後又主動拋棄了我們。」

遞減效應最可能的解釋是：均值回歸：既，早期實驗中「僥倖」獲得的陽性數據開始與後期得到的「陰性」數據正負抵消。斯庫勒預知力研究中的被試者並沒有「喪失預知力」，他們不過是被更多「無預知力」的數據遮蓋了。同時，斯庫勒還注意到遭遇遞減效應的數據組是通過統計學檢驗的。也就是說，數據量是足夠大的，所以均值回歸的影響不應該這麼強烈。斯庫勒說：「數據通過了所有的（統計學）測試，理論上說，它們是無意義的隨機數據的概率只有百萬分之一。所以，遞減效應是不太可能出現的。實際上，它卻經常顯靈。而且我人品不好趕上了好多次。」斯庫勒博士認為遞減效應該得到更多的關注，因為四處招搖的遞減效應正在挑戰統計學。斯庫勒說「每當我討論遞減效應時，學者們總是覺得不安。我還是想弄明白我的數據到底怎麼了。和大多數學者一樣，我認為隨著個人成長，我的研究工作會越來越輕鬆，因為我的實驗技巧越來越好，研究語言屏蔽效應的實驗設計也會越來越好。但為什麼總是事與願違呢？我相信我們可以用科學的研究方法解開這個謎題，但在此之前，我們必須承認，我們面臨的是一個真正的困境。」

1991年，丹麥動物學家安德斯默勒（ Anders Møller）在瑞典烏普薩拉大學做研究時，做出了一個不錯的發現。這個成果的關鍵詞是，家燕，交配和身體對稱。傳統上認為，生物個體的身體對稱性與其基因組突變量是直接相關的。越多的基因突變意味著更多的「波動性不對稱」。（測量人類波動性不對稱的一個簡單方法就是對比雙手的手指長度）。安德斯默勒的發現是，雌性家燕非常願意與羽毛又長又對稱的雄家燕交配。這意味著，挑剔的雌性家燕用雄性家燕羽毛的對稱性做參考，來衡量雄性基因的好壞。默勒的這篇研究論文發表在引無數大牛盡折腰的《自然》科學雜誌上，引發了相關領域中一場狂熱的研究競賽。因為學者發現可以用一個簡單且適用性廣泛的參數來衡量基因質量，而且雌性/女性也會被這些參數的特徵吸引。某種程度上說，審美是由基因推動的。

隨後的三年，交配選擇中波動性不對稱領域興起了十個獨立的研究項目，其中九個發現了雄性的身體對稱性和求偶成功率之間有聯繫。這九個研究中，從果蠅體毛研究到家燕身體對稱性的重複性研究，科研人員發現，雌性動物總是傾向於與身體左右對稱的雄性交配。不久之後，這個理論被用來研究人類的婚配選擇。學者發現，女性更喜歡那些身體對稱的男性的氣味，有意思的是，人類女性的只在排卵期表現出這種傾向。還有，男性的身體對稱，他的女性伴侶性高潮的次數更多。羅格斯大學的一個人類學家公佈：他研究了40個牙買加舞動作，發現身體對稱男性舞者往往被評為好舞者。

但是，好景不長，這個理論也遭遇了危機。1994年，這個領域有14篇論文發表，其中8篇文章證實了身體對稱和交配選擇有關聯。1995年，８篇發表的論文，只有4篇有了陽性結果。1998年，12篇波動性不對稱的文章中，只有三分之一聲稱佐證了波動不對稱理論。更糟的是，陽性結果研究的效應量也在下降：1992到1997年，波動性不對稱課題研究中的平均效應量下降了80％。

波動性不對稱理論的遭遇只是個開始。2001年，澳大利亞國立大學的生物學家邁克爾詹尼恩斯，分析了生態學和演化生物學研究結果隨時間變化的趨勢。詹先生收集並研究了上百篇論文和44篇統合分析論文（譯者：統合分析（meta-analysis）是對相似/相同課題的研究結果以統計學的方法進行總結分析）。總結分析後，詹先生發現了遞減效應的身影：很多理論被時間洗去了存在價值。而且，詹尼恩斯設法排除許多變量的干擾。（比如，同一作者發表的幾篇相似文章如果都計入統合分析，數據的重複使用會干擾分析結果。）即使如此，詹尼恩斯還是發現：科學假設的有效性通常在一年內顯著下降。詹先生承認他的發現很棘手，但他卻不願意公開討論這些。詹先生認為：「對於科學家來說，這個話題很敏感，因為科學家的責任就是解決那些長期困擾人類的謎題，並創立永恆理論，但是當你看到這些遞減效應的影響時，你突然間開始對這一切產生了懷疑。」

澳大利亞西澳大學的生物學家利西蒙斯（ Leigh Simmons）提出了他自己的解釋。當他跟我討論他曾經對波動性不對稱理論的狂熱時，他說：「我曾經對波動性不對稱感到非常興奮。在早期研究中，波動性不對稱的效果顯得特別顯著。」當時他決定自己也做幾項研究，來看看天牛的對稱性。「然而不幸的是，我的研究沒有發現波動性不對稱效應，「西蒙斯說，」但最糟糕的是，我的研究結果是「無意義的」，這是很難發表的。因為大多數科學雜誌只想要確定的結果。能確定地證偽一個理論是挺轟動的，如果不能證偽，至少要能確定地支持一個理論。對於西蒙斯來說，竄紅並漸漸過氣的波動性不對稱理論是科學發展模式的一個典型例子：作為一個曾經的學術明星，它既指導又限制了科學研究：當這個學術超新星理論被提出來的時候，論文的同行評議者們總是對陽性結果的作證性論文更寬容。風水輪流轉，曾經的明星理論面臨著身敗名裂的危機，證其為偽的論文開始受歡迎。

與西蒙斯的解釋相似，詹尼恩斯認為遞減效應受了「發表偏見」影響。或者說，科學家和學術論文雜誌編委會更喜歡佐證性的陽性結果而不是「無意義的結果」。1959年，統計學家西奧多斯特林（ Theodore Sterling）確定了「發表偏見」的影響。斯特林發現97％的心理學論文都是有顯著統計學意義的。顯著的統計學意義的解讀是：研究數據是偶然獲得的概率小於5％。這個測試科學研究是否具有」統計學意義」的方法是由英國數學家羅納德費希爾（ Ronald Fisher）在1922年創立的。費希爾選定了5％作為「統計意義」的閾值。也有人認為5％的選擇不過是讓筆算更容易些而已。斯特林認為，97％的心理學論文都在證明假設而不是證偽，說明要麼是心理學發展走狗屎運要麼是學者們只發表陽性結果（譯者，顯然後者的可能性更大）。最近幾年，醫藥界研究人員認為「發表偏見」極大地影響了臨床研究。因為利益驅動的製藥公司不願意發表他們不喜歡的結果：即那些證明藥物效力低或者無效的臨床研究結果。即使那些利益紛爭較少的學科---比如心理學和生態學---也逐漸受到「發表偏見」效應的負面影響。（別忘了，他們也是一群追逐文章數量的悲催團體）

雖然幾乎可以確定「發表偏見」推動了遞減效應的發展，但它並不能解釋一切。比如，某些項目的早期研究結果是陽性的，但並它們從來沒被發表過。顯然這些數據不會受「發表偏見」影響。還有，斯庫勒的悲劇也不能用「發表偏見」解釋。曾經研究波動性不對稱的阿爾伯塔大學生物學家理查德帕爾默（ Richard Palmer）懷疑：有人選擇性匯報數據，帕爾默的主要證據來自一種統計學工具：應用漏斗圖統計分析法。一般而言，某一領域會集中許多研究項目，理論上，這些項目的研究結果是可以按圖索驥的：樣本量大的研究結果集中在一個數值附近；而樣本量較小的研究結果應該是隨機分佈的，因為它們更容易受到抽樣誤差影響。如果用一個點代表一個研究項目的結果，並做出一張二維圖，這些點的分佈有點像一個漏斗。

利用「應用漏斗圖」作圖分析可以直觀地發現「選擇性報告」的影響。帕爾默收集了所有的波動性不對稱研究，並作「應用漏斗圖」分析。他發現小樣本量的研究數值分佈並不隨機，而是向陽性結果的方向劇烈傾斜。帕爾默在其他領域也發現了類似的問題。他說：「當我意識到「選擇性報告」在學術界其實很普遍的時候，我的確很沮喪，做為一個研究學者，你知道總會有一些非隨機因素或多或少地影響研究過程，但你卻不知道這些影響有多大。」帕爾默最近的一篇綜述文章總結了「選擇報告」效應在他研究領域的影響：「我們不能逃避這個困境：一些，甚至很多被奉為圭臬的「理論」，其生物學意義其實不過是被過分誇大了；最糟則可能僅僅是重複的主觀偏見累計而成的錯覺。

帕爾默總結到，「選擇性報告」效應並不是科學方法的錯誤，而是學者們在努力解釋數據時犯的一種微妙的過失，或者說，是無心的錯覺。斯蒂分傑伊古爾德則把這個過程類比為用鞋拔子穿鞋。西蒙斯說「科學測量過程確實很難。比如波動性不對稱理論的主要內容是觀察動物身體左右兩部分間的微小區別，比如一片尾羽毛上毫米大小的差異。進一步說，很多研究者知道他觀察的雄性個體基因是好的----因為它經常成功交配----所以他們就假定這個y染色體動物的身體是對稱的。所以，波動性不對稱理論的研究很容易受主觀偏見影響。這麼說並不是誠心挑刺，它是人類的自然本性的表現」

這裡有一個典型的「選擇性報告」的案例：即在不同國家進行的針灸實驗。大多數亞洲國家中，針灸的應用和接受度是相當廣泛的。而西方國家中，使用針灸還存在爭議。這點深深影響了針灸臨床實驗。1966到1995年間，中國，台灣，日本等地一共進行了47項針灸研究，而且每一個研究都證明針灸是完全有效的。同一時期，美國，瑞典，英國等西方國家舉行了94項針灸臨床實驗，只有56％的研究得到陽性結果，即針灸作為醫療手段是有效果的。按照帕爾默的假設，針灸臨床實驗結果的分歧佐證了一個推測：科學家總想證明他們喜歡的假設，並且選擇性地忽視掉不喜歡的假設。所以說，我們的信念是盲從的。

斯坦福大學的流行病學家約翰 ·艾奧尼迪斯（John Ioannidis）認為，選擇性報告等主觀傾向極大地影響了生物醫學研究。他說「這些解釋了遞減效應廣泛發生的原因。其實如果初始的研究給了一個準確的結論就夠了，但是現實往往事與願違。而現在，由於被前期論文結果誤導，我們浪費了很多財力在醫療和追蹤研究上。」 2005年，美國醫學學會期刊上發表了艾奧尼迪斯的一篇文章。這篇文章總結了三大主流醫學雜誌中49篇被引用次數最多的臨床研究文章。其中45％的文章匯報了陽性結果：說明這些項目研究的治療方法是有效的。而且這些研究都是隨機對照實驗--醫學研究的葵花寶典---這些研究結果往往會深刻地影響臨床治療，並讓某些治療方法迅速推廣。比如更年期婦女的激素替代療法，日常服用低劑量阿司匹林以預防心臟病和中風。但是，艾奧尼迪斯得到的數據卻有些令人不安：49篇文章中，34％的研究需要重複實驗驗證，還有41％的研究要麼被後來的研究否定要麼效應量下降。

那些流行的研究課題現狀更糟。比如，最近很流行的一個課題是：男女兩性因基因差異導致的疾病風險差異研究。被研究的基因包括增加精神病風險的突變基因和控制高血壓的基因。流行病學家艾奧尼迪斯和他的同事研究了432個課題，發現大多數研究都有嚴重缺陷。當他調查實驗的重複性的時候，他發現問題更嚴重：432份研究中，只有1個研究被認為是可重複的，艾奧尼迪斯說：「這並不說明所有的研究都是不對的，但因為這些研究做得那麼差，我還是保留意見。」

根據艾奧尼迪斯的說法，主要的原因是很多學者在追求「具有統計學顯著意義」的數據，或者說僅僅是為了那些通過統計學顯著性檢驗的數據找科學解釋而已，即那些通過羅納德費希爾（ Ronald Fisher）設立的95％置信區間檢驗的（就是那個5％的底線的另一種說法）。艾奧尼迪斯說：「科學家急切地希望數據能通過統計學顯著性檢驗，所以他們開始用自己的數據做文章，搜腸刮肚地試圖找到一些看似有道理的科學解釋。」最近幾年，艾奧尼迪斯開始越來越嚴苛地批判這種風氣。他被引用的最多的一篇文章的標題有些挑釁味道：《為什麼大多數發表的論文都是假的》。

「選擇性報告」其實源於人類的基礎認知缺陷：因為我們喜歡被證明正確而不喜歡被證明錯誤。艾奧尼迪斯說：「證明一個假設為真的感覺真的是太好了——特別是當你的職業發展和個人經濟條件都與這個新發現有關的時候。這就是為什麼，一個假設被系統地證明為偽，你還是能看到一些不到黃河不死心的頑固學究引用早期研究文章的顯著性陽性結果，因為他們想相信這個假設是對的。」比如，現在仍有很多人執著於激素替代療法或者那些維生素功能的研究。

所以斯庫勒認為，發表文章之前學者必須更嚴格地收集數據。他說，「我們為追蹤過去那些不完善的研究和設計缺陷的科研項目浪費了太多時間。我們對重複性驗證的糾纏不休，正干擾我們解決真正的問題。」斯庫勒解釋說，很少有人嘗試去重複研究那些已發表的論文，因為數量太大了。（《自然》雜誌說，迄今為止，三分之一的論文從來沒有被引用過，更別說被其他重複性驗證了）。斯庫勒說，「我學到的教訓是：研究中必須一直很小心。所以，每一個研究者應該提前說明他們的實驗設計，比如：將用多少被試，他們的測試項目是什麼，有效論證數據應該由什麼組成。這樣，我們的實驗研究才會更透明。」

斯庫勒的下一篇論文將建議建立一個開放數據庫。這個數據庫要求科研人員們概述實驗設計並記錄所有的數據。斯庫勒說，「我認為建立了這個數據庫，會提高科學研究工作的門檻，也會讓我們更好地判斷實驗質量，這個平台能最終幫我們解決遞減效應造成的問題」。

這些建議可能會減輕「發表偏見」和「選擇性報告」的影響，但這些並不能完全消除遞減效應。因為科學研究其實更多地被一些人力不可控制的力量影響：比如，不能做到100％純粹的隨機取樣研究。目前關於研究中隨機和偶然事件的負面影響的研究並不多，現存的相關研究也並沒有解決問題。

1990年代，俄勒岡衛生科技大學的生物學家約翰克拉布（ John Crabbe）通過實驗證明，未知隨機因素的確可以顛覆重複性驗證的可靠度。約翰克拉布在三個不同的實驗室——分別位於美國紐約州的奧爾巴尼，俄勒岡洲的波特蘭，加拿大亞伯達省埃德蒙頓市——做了同一系列的實驗研究老鼠行為。實驗啟動之前，克拉布嘗試把所有他能想到的變量都調整成一模一樣的。比如，老鼠是一個品系的近親，同一天從同一個供貨商出發，它們在一樣的環境中長大；老鼠住的盒子底層鋪的鋸末是同一個牌子；螢光燈的照明量是一樣的；每一窩老鼠的數量是一樣的；飼料的量和品種也是一樣的；接觸老鼠時戴的手套是同一個牌子；測試的設備也一樣，測試研究的時間都是在早上的同一時間。

這個實驗的預期就是每個實驗室的獨立實驗能得到相同的結果，克拉布說：「如果真的有一種實驗設計能通過所有的（可信度）檢驗，那必然將是這次，但事與願違。」按照實驗設計，克拉布給被試老鼠注射了可卡因。老鼠嗑藥後會很興奮，活動量會增加，研究人員測量老鼠活動的距離來衡量活動量，即興奮程度。實驗的結果是：在波特蘭嗑藥的老鼠比平時多活動了600釐米，而它們在奧爾巴尼的親戚則多運動了701釐米，但是在加拿大埃德蒙頓市嗑藥的老鼠則比正常狀態多活動了5000釐米（沒錯，三個零）。而後續的老鼠焦慮行為實驗，也出現了相似的問題。而且這些出入並不能用已知的理論解釋：在波特蘭實驗室中表現得最焦慮的老鼠是一個品系，而在奧爾巴尼確是另一種。

克拉布的實驗很不厚道地指明了一點：很多名聲一時的數據不過無意義的背景噪音。埃德蒙頓市「藥來瘋」老鼠的過分活躍並不能證明什麼：這組數據不過是一個無意義的離群數據；一個被未知變量所影響的副產物。問題是，這個數據很有可能發表在有聲望的雜誌上，因為這個結果又驚異又具有「顯著的統計學意義」。可以想像，這個數據發表後，很多跟屁蟲會出現，然後申請經費，進行後續研究什麼的。這可能導致科學上的錯誤，指不定多少年才會被人發現。

所以說，所謂「遞減效應」不過是錯覺的遞減。卡爾波普爵士（Sir Karl Popper）認為一個確定的實驗就可以證偽一條理論，比如伽利略用一個下午就推翻了亞里士多德力學，可現實中的情形卻更為複雜。更糟糕的是，很多被多次證偽的假設依然被視為正確的：語言屏蔽效應也許遭遇了遞減效應，但它的影響力並沒有「被遞減」。除了本文開頭討論的第二代抗精神病類藥物，遞減效應也影響了物理學研究：1969到2001年，物理學家發現中子衰減時的弱耦合比率已經降低了10個標準偏差；萬有引力似乎不再「萬有」：物理學家曾在美國內華達的沙漠鑽深洞研究萬有引力，得到的實驗數據與理論值有2.5%的偏差。但是，第二代抗精神病藥物依然廣泛地用於治療，中子模型也沒有變。萬有引力理論依然是原來的樣子。

這些不正常的結果都展現了經驗主義變化多端的一面。儘管一些科學假設最終走向效應量下降或者自我矛盾的死胡同，它們還是被寫進了教科書，並左右當今的醫療準則。為什麼？因為這些觀念看起來是「正確的」。因為它們「有道理」。因為拋棄這些我們的代價會很大。這才是遞減效應非常棘手的原因。不是因為遞減效應揭露出科研中的人類天性犯下的錯誤：比如數據被調整，主觀偏見影響客觀結果（科學家也是人，他們犯這種錯誤並不奇怪）；也不是因為遞減效應打破了我們誤信的「真理」的光輝。（這種想法可以上溯至科學哲學家托馬斯庫恩（Thomas Kuhn）對科學概念演化的思考）。遞減效應之所以棘手也因為它提醒了學者：想證明一個理論是有多難。我們喜歡假裝認為我們的實驗證明了真理，事實證明這不過是我們的一廂情願。真理並不一定會被證明，被證明為真的假設也並不一定是真理。分析實驗數據時，我們還是得做出選擇：到底該相信什麼。

路過

雷人

握手

鮮花

雞蛋

剛表態過的朋友 (7 人)

收藏分享邀請舉報

全部作者的其他最新日誌

發表評論評論 (6 個評論)

回復 kelvinkwan 2011-8-4 12:25: 科學的發現只屬某時某環境而作出最有可能的推斷,不等如事實,只是有某程度的可信而已,結論會隨環境及受各樣測試因素影響.所有的理論皆不能盡信為最後的事實.
另外同一項研究在世界各地同時有很多不同的科學家進行研究,他們的結果並不一定一致,這也可成為參考,以考慮其發現及推論的可度.

回復 gegege 2011-8-7 00:07: 科學是一種方法和態度，
用最客觀、週全的方式來證明「對的狀態」，
這些有所限制的「對的狀態」，並不能無限延申，
因為它的實驗設計不是絕對客觀和週全，
它也只不過是尚未被證明出「錯的狀態」，
這「錯的狀態」不是不存在，而只是未被發現……
若哪天發現任何一樣東西是往天空掉的，
萬有引力就要被打破了。

回復 Kevin 2011-8-10 12:14: kelvinkwan: 科學的發現只屬某時某環境而作出最有可能的推斷,不等如事實,只是有某程度的可信而已,結論會隨環境及受各樣測試因素影響.所有的理論皆不能盡信為最後的事實.
另外 ...
文章指出的致命的問題是：
原來可信性其實非常低！

回復 Kevin 2011-8-10 12:39: gegege: 科學是一種方法和態度，
用最客觀、週全的方式來證明「對的狀態」，
這些有所限制的「對的狀態」，並不能無限延申，
因為它的實驗設計不是絕對客觀和週全，
它也 ...
可惜的是，大家公認的客觀原來非常不客觀：
原以為依賴統計學分析，便可以撇除隨機因素的干擾，原來未知隨機因素的確可以顛覆重複性驗證的可靠度！
然後再加上『選擇性報告』和『發表偏見』，這兩個普遍存在的由人類聰明的腦袋造成的因素，就可以白變黑，黑變白！

回復 gegege 2011-8-11 07:10: 所有的「客觀」，當然都還是每個人的「主觀」，
沒有絕對，只能儘量想辦法達到盡善盡美的「相對客觀」，
這篇的重點不在講述那些人為的刻意因素，
主要是在提醒大家，
相信以前的科學實驗結果時，
要記得還有另一種科學思唯不可忽略，即遞減效應，
如果完全無視遞減效應，
大概就像我們那句老話「盡信書不如無書」了。
科學的本質是懷疑，
完全相信就不科學了，
只是過度懷疑會變得沒一樣能信，
導致類似「因噎廢食」的狀況，
還是要有所拿捏，尺度就因人而異了。

回復 kelvinkwan 2011-8-18 11:28: Kevin: 文章指出的致命的問題是：
原來可信性其實非常低！
其實有些所謂的科研發表,根本是統計學遊戲,你想結果是怎樣就取某些數據及用某種的計算方法.
我亦曾做過一些科研,深知有好多因數會影響結果,有好些研究的可信性並不高.而且好些結果與批研究基金有關,結果也受影響.

Kevin的個人空間 https://medyeah.zenith-healthcare.com/bbs/?6 [收藏] [複製] [分享] [RSS]

日誌

(轉)真理在縮水——現代科學研究方法並不盡善盡美？

剛表態過的朋友 (7 人)

全部作者的其他最新日誌

發表評論 評論 (6 個評論)

Kevin

發表評論評論 (6 個評論)