Make science more reliable: study people as they go about their lives

公共政策充斥著未能如預期奏效的倡議。以「嚇阻計畫」（Scared Straight）為例，該計畫於 1978 年至 2015 年間由美國 30 多個州推行，旨在透過讓高風險青少年與最高安全級別監獄中的囚犯面對面，來阻止他們成為頑固罪犯。該計畫在一個 1978 年的紀錄片 pilot 專案後被擴大推行，該專案發現 80-90% 的青少年參與者都未再惹事生非。然而，當計畫規模擴大後，干預措施卻失效了。在某些地方，青少年的犯罪行為甚至有所上升。

同樣地，許多已被證明有效的兒童發展干預措施，在其他地方卻未能取得可比的成果。例如，在學校為兒童驅蟲在肯亞大幅減少了缺勤率，但在其他地區卻顯示出混合或較弱的效果。布吉納法索的學校供餐計畫增加了學生出席率，但在其他國家對學習成果的影響卻有限。

科學為何面臨可信度問題 — 以及如何解決

這種可推廣性問題部分源於人類行為在不同人群和情境下存在差異。人們生活在複雜的社會環境中，標籤、利害關係和審查制度塑造著每一個決定。但這些背景因素卻常常被忽略。傳統上，研究參與者來自西方、受過教育、工業化、富裕且民主（WEIRD）的人群，他們在視覺感知、道德推理和合作等方面的代表性不足。對他們有效的方法可能不適用於其他人群。

我認為，解決這個問題的方法之一是運用更多的自然田野實驗。在這些研究中，參與者在進行日常活動時並不知道自己被研究人員觀察，同時他們環境中的某些特徵會被改變。透過在自然環境中研究人們，並假設嚴格的倫理規則得到遵守，研究人員可以更有信心他們的發現與該群體相關。

三項發展使科學家能更好地利用這些方法。首先，學術界對可複製性危機的關注，恰逢人們日益認識到研究結果往往難以推廣到實驗室研究中典型招募的狹窄人群之外。其次，科技行業正在進行數千項自然田野實驗，以獲取關於其客戶的可靠資訊，建立了學術界可以利用的基礎設施和方法。第三，日益增長的可推廣性研究提供了預測結果何時以及為何無法適用於不同人群和情境的框架。

在此我將概述學者如何在工作中嵌入自然田野實驗。

從社會科學到生物醫學，科學領域都認識到複製研究的困難。研究方法的改革可以幫助研究人員產生更可靠的結果，並更容易地重複他人的工作。這包括假設和方法的預先註冊、更大的樣本量、開放數據和透明的報告。然而，在與人類行為相關的領域，複製僅要求研究人員在相同環境下，對相同類型的人獲得相同結果，而不是測試其是否適用於其他地方的人。

可推廣性問題在實驗設計的三個階段出現。

第一階段：人群選擇。在進行任何實驗之前，研究人員必須選擇一個人群來抽取研究參與者。心理學家可能會招募大學生，而醫學研究人員可能會從學術醫院的人員中選擇。當研究選擇的人群與最終將受其結果影響的人群不同時，研究結果可能無法轉移。歷史上，臨床試驗主要招募中年白人男性，其結果隨後被應用於女性和其他治療效果可能差異很大的群體。

遊戲如何讓行為科學變得更好

第二階段：參與者選擇。在標準的行為實驗中，參與需要同意，而同意需要意識。一旦潛在志願者了解研究，有些人同意，有些人則拒絕，而這個決定很少是隨機的。考慮一項支付志願者 20 美元出場費的實驗室實驗。回應者很可能時間安排靈活，在學術環境中感到自在，並且重視足夠的報酬而參與。這種自我選擇可能會扭曲參與者群體。在「嚇阻計畫」中，這體現在兩個方面。首先，志願者是既想改變又願意被拍攝的青少年。其次，結果數據是透過寄給家長的信件收集的，而那些對孩子有好消息的人更有可能回覆。

第三階段：情境選擇。所有人類行為的研究都涉及創建一個實驗情境來觀察參與者。當情境與干預措施在現實生活中發生時的差異時，就會出現情境偏差。這可能包括志願者所受審查程度、利害關係的大小以及圍繞決定的社會線索的差異。

在我進行的一項研究中，交易卡經銷商在研究人員的知情審查下與客戶互動。然後，我將他們的行為與在市場上工作、但不知道自己被觀察的經銷商進行了比較。當經銷商知道自己被觀察時，他們提供的卡片品質高於買家當場可驗證的品質 — 這是一種昂貴的互惠行為，與任何重複業務的前景無關。相比之下，在市場上，互惠是策略性的：只有當聲譽和重複業務使其在經濟上合理時，才會提供慷慨。

正如這所示，在許多現實世界的情境中，決策發生在聲譽、關係和後果的網絡中。從削弱這些影響的情境中推廣可能導致錯誤的推論和有缺陷的政策制定。

自然田野實驗可以繞過這些問題。由於人們不知道他們在做實驗，參與者選擇（第二階段）的問題就不存在了。而且由於實驗是在研究人員希望了解的環境中進行的，參與者像往常一樣購物、工作或捐贈，情境不匹配（第三階段）的問題也消失了。

由於人群仍然由研究人員選擇，這種方法不能保證第一階段的問題得到克服 — 在不同的社區可能不會發現相同結果。但這些實驗確實清楚地定義了結果適用的群體。如果結果在不同情境下有所不同，那麼原因就很清楚：人群不同。

實驗室實驗，人們知道自己正在被研究，可以作為自然田野實驗的良好補充。圖片來源：Getty

作為位於阿肯色州本頓維爾的零售連鎖店 Walmart 的首席經濟學家，我知道我進行的自然田野實驗的發現對 Walmart 的顧客是可靠的，但可能不適用於 Amazon 的購物者。相比之下，具有參與者選擇的實驗室實驗可能會顯示出不同研究之間的差異結果。這些結果可能反映了真實的人群差異、參與者選擇的差異，或兩者兼有，而研究人員無法輕易將它們區分開來。

自然田野實驗可用於在許多行業中提出各種問題。研究慈善捐贈的研究人員可能會改變寄給家庭的捐贈信件內容。研究誠實的心理學家可能會將錢包放在公共場所，並測量不同社區的歸還率。在 Walmart，我的團隊正與 6,000 多家供應商進行自然田野實驗，以測試哪些因素能最有效地激勵供應商減少碳排放。

然而，存在局限性。自然田野實驗不能應用於所有研究問題。某些干預措施，例如心理治療或課堂教學，本質上需要人們的意識。某些過程，例如私人審議，在不詢問的情況下是無法觀察的。而且存在嚴格的倫理限制，規定何時適合以及何時不適合使用自然田野實驗。

自然田野實驗不應讓參與者面臨超過最低風險的風險，或讓他們經歷他們通常不會遇到的情況。改變慈善呼籲措辭、能源帳單格式或安排醫療預約的推動時機的實驗，讓參與者經歷了在沒有研究的情況下他們本來就會遇到的正常範圍內的體驗。相比之下，餵給線上平台用戶負面內容的研究 — 這種操縱會帶來超出他們正常體驗的心理風險 — 就可能越過倫理界線。

新穎性指標能否改善科學？

所有田野行為實驗都應遵循現有的監管人類研究的倫理框架。例如，《貝爾蒙特報告》（美國研究倫理的基礎）指出，涉及不完整披露的研究僅在滿足三個標準時才合理：完成研究目標的需要、沒有或最低限度的未披露風險，以及在適當情況下有充分的匯報計畫。

doi: https://doi.org/10.1038/d41586-026-01957-z

Petrosino, A., Turpin-Petrosino, C., Hollis-Peel, M. E. & Lavenberg, J. G. Cochrane Database Syst. Rev. 2013 , CD002796 (2013).

Finckenauer, J. O. Ann . N. Y. Acad. Sci. 347 , 213–217 (1980).

Vivalt, E. J . Eur. Econ. Assoc. 18 , 3045–3089 (2020).

Henrich, J., Heine, S. J. & Norenzayan, A. Behav. Brain Sci. 33 , 61–83 (2010).

List, J. A. Nature 626 , 491–499 (2024).

Al-Ubaydli, O. & List, J. A. On the Generalizability of Experimental Results in Economics (Handbooks of Economic Methodology, 2015).

List, J. A. Experimental Economics: Theory and Practice (Univ. Chicago Press, 2026).

List, J. A. J. Polit. Econ. 114 , 1–37 (2006).

Levitt, S. D. & List, J. A. Science 319 , 909–910 (2008).

Levitt, S. D. & List, J. A. J. Econ. Perspect. 21 , 153–174 (2007).

National Commission for the Protection of Human Subjects of Biomedical and Behavioral Research. The Belmont Report (US Department of Health, Education, and Welfare, 1979).

World Medical Association. JAMA 310 , 2191–2194 (2013).

Willis, D. ‘Professors’ research project stirs political outrage in Montana.’ The New York Times (28 October 2014).

Bernstein, M. S. et al. Proc. Natl Acad. Sci. USA 118 , e2117261118 (2021).

讓科學更可靠：研究人們在日常生活中的行為

相關新聞

首批核時鐘問世：它們能做什麼？

科學家發現暴龍需40年才能長到成年體型

一種常見脂肪恐助長第二型糖尿病，另一種則有助對抗

長壽家族揭示健康老化罕見基因線索

中國鈉離子電池表現媲美特斯拉，科學家感到驚喜

湖泊變色影響魚類生態：鱒魚、鱸魚減少，狗魚、玻璃魚增長