如果你建立了一個資料集,卻無人能找到它,那它還有用嗎?作用遠不如它本可以發揮的那麼大。隨著科學信任受到黨派人士和無差別病原體的攻擊,科學資訊的可訪問性、透明度以及對其的信任度必須得到提升。

人們是否已不再信任科學?數據講述了一個令人驚訝的故事。

FAIR 資料原則應運而生。2014 年,科學家們意識到資料管理和維護可以從一套共享指南中受益,於是數十位國際研究人員聚集在一起,起草了新的建議。由此產生的原則——確立了資料應可查找(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)——已於十年前發表 1 。最初的出版物約有 16,000 次引用,如今世界各地的政府、資助者和出版商都要求以符合 FAIR 的方式託管和共享資料。

然而,十年過去了,即使是創始人也承認 FAIR 原則是一個不完美的工具。荷蘭萊頓大學的分子生物學家 Barend Mons,該倡議的構思者,表示 FAIR 始終只是一套通用原則,「因此,按定義,它無法解決每個應用程式的具體細節」。幸運的是,其他研究人員已經採用了該框架,並將其擴展到涵蓋更廣泛的資料生態系統 2 ,包括驅動當代研究的演算法、工具和工作流程。

其核心是,FAIR 旨在確保資料的生產、分析、儲存和共享方式能夠促進透明度和可重複性。Mons 說:「資料越是除了創作者以外的人能夠理解,我們就越能確定不僅資料集本身的可靠性,還包括其聲稱的創作者的可靠性。」

理想的資料集應該經過妥善記錄,對電腦和人類來說都易於查找和使用。它還應該易於與其他資料整合。為此,科學家必須在收集資料之前設計工作流程,並創建和維護詳細的元資料檔案——這是一個經常被忽視的組成部分,其中包含有關資料集的上下文資訊,例如其創建的時間和地點。該倡議還優先考慮資料管理計畫,包括選擇適當的授權和持久識別符——分配給不同資源的唯一標籤——以便在研究結束後,專案期間創建的任何資訊都能被找到和使用。

科學信任的複雜真相。

西班牙巴塞隆納大學的資料完整性研究員 Amelia Jiménez-Sánchez 說:「這需要考慮很多事情,我明白為什麼有些科學家會覺得這非常令人生畏。」但她說,FAIR 就像烹飪一樣:一旦有了正確的食材——或者熟悉了 FAIR 實踐——做出一頓飯就變得更容易了。「最終,它就成了你工作方式的一部分。」

使用者根據自己的學科調整了這些實踐。賓夕法尼亞州匹茲堡的卡內基梅隆大學發布了針對化學、數學、神經科學和心理學的 FAIR 指南。其他倡議則專注於天文學、材料科學、遺傳學和單細胞基因組學資料。對於沒有專門 FAIR 資源的領域,荷蘭的研究人員發表了「十條簡單規則」來啟動關於 FAIR 實踐的對話 3 。

伊利諾州萊蒙特阿貢國家實驗室的理論物理學家 Eliu Huerta 意識到他的領域缺乏專門的 FAIR 資源,於是開始為高能物理學調整 FAIR 原則。如今,Huerta 是 FAIR4HEP 合作計畫的一部分,該計畫旨在幫助該領域的研究人員改進他們的資料共享實踐。2022 年,他與人合寫了一項研究,評估了歐洲粒子物理實驗室 CERN(位於瑞士日內瓦附近)的大型強子對撞機的資料的「FAIR 性」4 。該研究指出,除其他事項外,「提供了一個領域無關的、逐步的檢查清單,以指導資料集 FAIR 化過程」——作者稱之為 FAIR 化。位於墨爾本、致力於建立研究資料基礎設施的澳大利亞研究資料聯盟(Australian Research Data Commons)的基於網路的 FAIR 資料自我評估工具,同樣提供了「關於如何提高資料 FAIR 性的實用技巧」。

FAIR 指南也適用於軟體。例如,FAIR-USE4OS 指南 5 將 FAIR 原則擴展到開源軟體專案,而 FAIR4RS 等倡議則專注於研究軟體 6 。

倫敦自然歷史博物館的巨生態學家 Natalie Cooper 說:「資料就是資料,但圍繞它建立的整個基礎設施系統,用於儲存、共享和分析這些資訊,這些工具也需要是 FAIR 和可重複的。」

去年,Cooper 代表英國生態學會編輯了一份可重複程式碼指南,該指南以 FAIR 原則為基礎。程式碼和資料有許多共同點,因此許多建議保持不變。但她發現對她自己的工作最有幫助的是程式碼審查,Cooper 現在在提交任何內容以供發表之前都會進行程式碼審查。在審查過程中,同事們交換協議,測試其可重複性,並提出提高效率的方法。「你們只是互相評論,希望你們能改進彼此的程式碼,」Cooper 說。「這可以是一個非常積極的經驗。」

英國愛丁堡大學軟體永續性研究所的創始所長 Neil Chue Hong 協助建立了 FAIR4RS 原則。Hong 說,在過去幾十年裡,對軟體的日益依賴是資料科學中最大的變化之一,幾乎所有研究領域現在都在某種程度上使用軟體。因此,該研究所主張為科學家提供研究軟體最佳實踐培訓的根本重要性。「現在,沒有軟體就非常難以分析或可視化資料,同時,沒有高品質的資料,軟體也很難存在,」他說。

就像資料應該附帶包含資料集本身資訊的元資料或 README 檔案一樣,軟體和演算法也應該有良好的文件記錄,包括使用了哪個版本。這對於人工智慧研究尤其如此。例如,位於紐約市的模型共享服務 HuggingFace 鼓勵研究人員創建「模型卡」,提供有關 AI 工具的關鍵資訊,包括其預期用途、效能指標、訓練資料和限制。

FAIR 資料原則如何建立科學信任FAIR 資料原則如何建立科學信任FAIR 資料原則如何建立科學信任FAIR 資料原則如何建立科學信任FAIR 資料原則如何建立科學信任FAIR 資料原則如何建立科學信任