研究人員是否仍應將其資料開放線上分享?這個問題正被一些研究人員熱議,因為現在機器人正例行性地挖掘開放取用資料庫和科學出版物,以訓練人工智慧工具——在某些情況下,它們還能分析和組合資料集,比人類更快地產出新的研究結果和論文。
一些研究人員認為,自動化科學的潛力可以用於科學的「公益」——例如,加速發現新的藥物靶點——這意味著開放資料應保持開放。但其他人則指出,有證據顯示,抓取複雜資料集的機器人會導致低品質的研究和「AI的垃圾內容」,同時也可能導致敏感資料的洩漏,包括病患資訊。他們主張需要新的規則和技術系統來限制機器人對資料庫的存取。
「這是一個每個人都應該思考的重大議題,無論你支持或反對 AI,」加拿大渥太華卡爾頓大學心理學家 Andrea Howard 表示。
可以確定的是,AI抓取已相當普遍。去年六月,開放取用儲存庫聯盟(Confederation of Open Access Repositories)發表的一項調查發現,超過 90% 的受訪會員組織遭遇過機器人抓取,其中大多數每週至少一次看到異常高的機器人活動¹。通常,這種抓取是為了提供 AI 模型訓練資料。這些資料也被用於產生完全由人工智慧模型生成的新研究產出。
「自動化管道能夠快速窮盡一個資料集能回答的研究問題的範圍和速度,感覺像是一個巨大的改變,」澳洲雪梨麥覺理大學定量心理病理學家 Miri Forbes 表示。「它壓縮了在特定資料集中可供工作空間。」
關於學術自由和開放取用的辯論是健康的
上個月,Forbes 在社群媒體平台 Bluesky 上發起了一場關於開放資料分享的討論。回應意見不一。「自由分享資訊意味著放棄控制權,並接受它可能被用於任何目的,包括我不喜歡的目的,」一位 Bluesky 用戶回應道。「反正那也不是你的資料,」另一位用戶發文表示。
其他人則不那麼樂觀,指出需要額外的安全措施。「作為一個科學社群,我們需要解決這個問題。我們不能讓大家害怕被 AI 搶先,」一位用戶發文表示。
進一步的擔憂包括,AI 工具不像人類研究人員那樣總是能正確地歸功和引用研究人員的資料,而且機器人似乎正在繞過隱私保護並抓取敏感的個人資料。
比利時魯汶天主教大學情境精神病學中心聯合主任 Olivia Kirtley 的研究涉及經歷自殺意念或自我傷害的人。「參與者可能因重新識別而面臨風險,敏感資料可能被用於非預期目的,或參與者未給予同意的目的,」她說。一項研究發現,公開可用的大型語言模型能夠識別出參與一項關於人們對 AI 工具看法的訪談式研究的大約四分之一的參與者,而這些參與者的個人詳細資訊已經過匿名化處理²。
然而,僅僅將資料集鎖在反機器人牆後面,並不符合科學進步的最佳利益,舊金山 ASAPbio 的執行董事 Katie Corker 表示,該組織是一個推動開放科學和研究出版過程透明化的非營利組織。「如果我們從純粹理想化的科學家角度思考,目標應該是開放分享研究資料,並利用它們來做出改善人類生活的發現,」Corker 說。她補充說,如果納稅人支付了收集這些資料的研究費用,那麼研究人員是否應該反對它們被公開使用,這是有疑問的。
這也是格拉斯哥大學學術研究實踐負責人 Lisa DeBruine 的觀點,她在 Bluesky 上發文表示:「也許 AI 濫用你的資料的速度比人類快,但任何你分享的東西都可以被用於好的或壞的方式,我認為透明的好處大於成本。」
一些研究資料庫的營運者已經在制定規則,以應對機器人抓取並控制對其資料集的存取。OpenAlex 和 Europe PMC 只允許透過 API 系統查詢其資料——這要求使用者向資料庫所有者申請才能存取網站資訊,並且只透過授權介面傳輸資料。其他資料庫,例如 UK Biobank,則透過禁止將參與者層級的資料納入公開可用的生成式 AI 模型來保護病患身份安全。
Kirtley 自今年年初以來一直擔任心理學預印本伺服器 PsyArXiv 的審核主席,她表示「儲存庫需要做更多工作來保護資料。」她認為需要「加強反抓取措施」,但她還不確定具體形式會是什麼——這表明了這個問題的當前性和新鮮度。
Howard 表示,她更傾向於與擁有系統的資料庫分享她的資料,這些系統允許她審核誰在存取她的研究資料,並了解他們的意圖。「我不太可能選擇不公開我的資料,而是透過稍微多一些障礙的服務來提供資料。」


