人工智慧系統能夠撰寫文章、回答問題並解決複雜難題。但一項新研究顯示,它們可能在人類每天都會做的一件事上遇到困難:在干擾出現時,保持對手邊任務的專注。

由 Suketu Patel 領導的研究團隊,讓幾款領先的 AI 模型進行了一項稱為「史楚普測驗」(Stroop task)的知名心理學實驗。結果揭示了 AI 系統處理資訊的方式與人腦管理注意力的方式之間存在顯著差異。

史楚普測驗是一項經典的心理學測試,數十年來一直被用於研究注意力、專注力和自我控制。

在測試中,會顯示「紅色」、「藍色」或「綠色」等顏色詞彙,並以不同的彩色墨水印刷。有時詞彙與墨水顏色相符,例如「紅色」一詞以紅色墨水顯示。其他時候則會衝突,例如「紅色」一詞以藍色墨水印刷。

參與者被要求說出墨水的顏色,而不是讀出詞彙本身。

這聽起來很簡單,但卻造成了挑戰,因為對大多數人來說,閱讀詞彙是一種自動習慣。大腦必須抑制閱讀詞彙的衝動,轉而專注於辨識墨水的顏色。

心理學家經常使用這項測驗來衡量所謂的「執行控制」(executive control),這是一組心理過程,有助於人們調節注意力、抵抗干擾並保持對目標的專注。

研究人員希望了解現代大型語言模型(LLMs)是否能以與人類相同的方式應對這項挑戰。

LLMs 是 ChatGPT、Claude 和 Gemini 等工具背後的人工智慧系統。它們經過海量文本的訓練,學習語言模式,從而能夠生成看似非常像人類的回應。

當給予包含五個顏色詞彙的簡短列表時,AI 系統通常表現良好,即使詞彙和顏色不匹配。

然而,隨著列表變長,情況發生了戲劇性的變化。

GPT-4o 在處理五個詞彙時準確度達到 91%。在十個詞彙時,其準確度下降到 57%。當列表擴展到四十個詞彙時,準確度僅下降到 15%。

Claude 3.5 Sonnet 在處理長達二十個詞彙的列表時保持了穩定的表現,但在處理四十個詞彙的列表時,準確度急劇下降至 24%。

研究人員在 GPT-5、Claude Opus 4.1 和 Gemini 2.5 中觀察到類似的模式。

當匹配和不匹配的顏色詞彙出現在同一列表中時,挑戰變得更加困難。

在這些條件下,表現進一步惡化。在某些情況下,不匹配項的準確度下降到接近零。

研究人員表示,AI 模型在維持辨識墨水顏色的指令方面遇到了困難。相反,它們越來越傾向於閱讀詞彙本身。

換句話說,這些系統似乎無法持續抑制它們最常被訓練產生的反應。

這一發現尤其有趣,因為人類面臨著類似的衝突。人們通常比辨識墨水顏色更擅長閱讀詞彙。然而,儘管存在這種偏見,大多數人在面對長串衝突的詞彙和顏色時,仍能保持高準確度和穩定的表現。

人類注意力 vs. 機器注意力

這項研究突顯了人類智慧與人工智慧之間的重要區別。

儘管現代 AI 系統能夠產生令人印象深刻的語言和推理能力,但其底層機制與生物大腦中的注意力過程不同。

人類通常能夠在過濾掉競爭資訊的同時,持續專注於特定目標。結果表明,當任務變得越來越艱鉅時,目前的 AI 模型可能難以應對這種認知控制。

研究人員認為,在這些實驗中觀察到的表現崩潰,表明了當前大型語言模型的根本限制。雖然 AI 有時可以模仿人類行為,但其維持注意力的能力似乎與人類的方式運作非常不同。

這些發現提醒我們,即使是最先進的 AI 系統仍然存在弱點,尤其是在任務要求它們抵抗干擾並在長時間資訊序列中保持專注時。

經典大腦測試揭示 AI 的最大弱點:專注力經典大腦測試揭示 AI 的最大弱點:專注力