How FAIR data are helping to build trust in science

如果你建立了一個資料集，卻無人能找到它，那它還有用嗎？作用遠不如它本可以發揮的那麼大。隨著科學信任受到黨派人士和無差別病原體的攻擊，科學資訊的可訪問性、透明度以及對其的信任度必須得到提升。

人們是否已不再信任科學？數據講述了一個令人驚訝的故事。

FAIR 資料原則應運而生。2014 年，科學家們意識到資料管理和維護可以從一套共享指南中受益，於是數十位國際研究人員聚集在一起，起草了新的建議。由此產生的原則——確立了資料應可查找（Findable）、可訪問（Accessible）、可互操作（Interoperable）和可重用（Reusable）——已於十年前發表 1 。最初的出版物約有 16,000 次引用，如今世界各地的政府、資助者和出版商都要求以符合 FAIR 的方式託管和共享資料。

然而，十年過去了，即使是創始人也承認 FAIR 原則是一個不完美的工具。荷蘭萊頓大學的分子生物學家 Barend Mons，該倡議的構思者，表示 FAIR 始終只是一套通用原則，「因此，按定義，它無法解決每個應用程式的具體細節」。幸運的是，其他研究人員已經採用了該框架，並將其擴展到涵蓋更廣泛的資料生態系統 2 ，包括驅動當代研究的演算法、工具和工作流程。

其核心是，FAIR 旨在確保資料的生產、分析、儲存和共享方式能夠促進透明度和可重複性。Mons 說：「資料越是除了創作者以外的人能夠理解，我們就越能確定不僅資料集本身的可靠性，還包括其聲稱的創作者的可靠性。」

理想的資料集應該經過妥善記錄，對電腦和人類來說都易於查找和使用。它還應該易於與其他資料整合。為此，科學家必須在收集資料之前設計工作流程，並創建和維護詳細的元資料檔案——這是一個經常被忽視的組成部分，其中包含有關資料集的上下文資訊，例如其創建的時間和地點。該倡議還優先考慮資料管理計畫，包括選擇適當的授權和持久識別符——分配給不同資源的唯一標籤——以便在研究結束後，專案期間創建的任何資訊都能被找到和使用。

科學信任的複雜真相。

西班牙巴塞隆納大學的資料完整性研究員 Amelia Jiménez-Sánchez 說：「這需要考慮很多事情，我明白為什麼有些科學家會覺得這非常令人生畏。」但她說，FAIR 就像烹飪一樣：一旦有了正確的食材——或者熟悉了 FAIR 實踐——做出一頓飯就變得更容易了。「最終，它就成了你工作方式的一部分。」

使用者根據自己的學科調整了這些實踐。賓夕法尼亞州匹茲堡的卡內基梅隆大學發布了針對化學、數學、神經科學和心理學的 FAIR 指南。其他倡議則專注於天文學、材料科學、遺傳學和單細胞基因組學資料。對於沒有專門 FAIR 資源的領域，荷蘭的研究人員發表了「十條簡單規則」來啟動關於 FAIR 實踐的對話 3 。

伊利諾州萊蒙特阿貢國家實驗室的理論物理學家 Eliu Huerta 意識到他的領域缺乏專門的 FAIR 資源，於是開始為高能物理學調整 FAIR 原則。如今，Huerta 是 FAIR4HEP 合作計畫的一部分，該計畫旨在幫助該領域的研究人員改進他們的資料共享實踐。2022 年，他與人合寫了一項研究，評估了歐洲粒子物理實驗室 CERN（位於瑞士日內瓦附近）的大型強子對撞機的資料的「FAIR 性」4 。該研究指出，除其他事項外，「提供了一個領域無關的、逐步的檢查清單，以指導資料集 FAIR 化過程」——作者稱之為 FAIR 化。位於墨爾本、致力於建立研究資料基礎設施的澳大利亞研究資料聯盟（Australian Research Data Commons）的基於網路的 FAIR 資料自我評估工具，同樣提供了「關於如何提高資料 FAIR 性的實用技巧」。

FAIR 指南也適用於軟體。例如，FAIR-USE4OS 指南 5 將 FAIR 原則擴展到開源軟體專案，而 FAIR4RS 等倡議則專注於研究軟體 6 。

倫敦自然歷史博物館的巨生態學家 Natalie Cooper 說：「資料就是資料，但圍繞它建立的整個基礎設施系統，用於儲存、共享和分析這些資訊，這些工具也需要是 FAIR 和可重複的。」

去年，Cooper 代表英國生態學會編輯了一份可重複程式碼指南，該指南以 FAIR 原則為基礎。程式碼和資料有許多共同點，因此許多建議保持不變。但她發現對她自己的工作最有幫助的是程式碼審查，Cooper 現在在提交任何內容以供發表之前都會進行程式碼審查。在審查過程中，同事們交換協議，測試其可重複性，並提出提高效率的方法。「你們只是互相評論，希望你們能改進彼此的程式碼，」Cooper 說。「這可以是一個非常積極的經驗。」

英國愛丁堡大學軟體永續性研究所的創始所長 Neil Chue Hong 協助建立了 FAIR4RS 原則。Hong 說，在過去幾十年裡，對軟體的日益依賴是資料科學中最大的變化之一，幾乎所有研究領域現在都在某種程度上使用軟體。因此，該研究所主張為科學家提供研究軟體最佳實踐培訓的根本重要性。「現在，沒有軟體就非常難以分析或可視化資料，同時，沒有高品質的資料，軟體也很難存在，」他說。

就像資料應該附帶包含資料集本身資訊的元資料或 README 檔案一樣，軟體和演算法也應該有良好的文件記錄，包括使用了哪個版本。這對於人工智慧研究尤其如此。例如，位於紐約市的模型共享服務 HuggingFace 鼓勵研究人員創建「模型卡」，提供有關 AI 工具的關鍵資訊，包括其預期用途、效能指標、訓練資料和限制。

FAIR 資料原則如何建立科學信任

相關新聞

關於科學信任的複雜真相

期刊主編談為何支付同行評審費用有效

科學家應認識自身政治偏見以建立公眾信任

增強B細胞啟動誘導廣泛中和HIV-1頂端抗體

撤稿聲明：NSD2標靶治療可逆轉前列腺癌的癌細胞可塑性與藥物抗性

疫苗接種在靈長類動物中引發愛滋病毒廣效性中和抗體