AI 專注力大考驗：史 চাকরির測驗揭示大型語言模型弱點

一項新的研究利用經典的史楚普測驗（Stroop task）來測試大型語言模型（LLMs）的專注能力。結果顯示，儘管 AI 在處理簡短的顏色詞彙任務時表現良好，但隨著列表長度增加，其準確度急劇下降，遠不如人類的專注力與抗干擾能力。這項研究突顯了當前 AI 在認知控制和維持長期專注方面的根本限制。

值得注意此研究透過經典心理學實驗，揭示了當前 AI 在專注力方面的重大限制，對 AI 的發展方向和應用有重要啟示。

人工智慧系統能夠撰寫文章、回答問題並解決複雜難題。但一項新研究顯示，它們可能在人類每天都會做的一件事上遇到困難：在干擾出現時，保持對手邊任務的專注。

由 Suketu Patel 領導的研究團隊，讓幾款領先的 AI 模型進行了一項稱為「史楚普測驗」（Stroop task）的知名心理學實驗。結果揭示了 AI 系統處理資訊的方式與人腦管理注意力的方式之間存在顯著差異。

史楚普測驗是一項經典的心理學測試，數十年來一直被用於研究注意力、專注力和自我控制。

在測試中，會顯示「紅色」、「藍色」或「綠色」等顏色詞彙，並以不同的彩色墨水印刷。有時詞彙與墨水顏色相符，例如「紅色」一詞以紅色墨水顯示。其他時候則會衝突，例如「紅色」一詞以藍色墨水印刷。

參與者被要求說出墨水的顏色，而不是讀出詞彙本身。

這聽起來很簡單，但卻造成了挑戰，因為對大多數人來說，閱讀詞彙是一種自動習慣。大腦必須抑制閱讀詞彙的衝動，轉而專注於辨識墨水的顏色。

心理學家經常使用這項測驗來衡量所謂的「執行控制」（executive control），這是一組心理過程，有助於人們調節注意力、抵抗干擾並保持對目標的專注。

研究人員希望了解現代大型語言模型（LLMs）是否能以與人類相同的方式應對這項挑戰。

LLMs 是 ChatGPT、Claude 和 Gemini 等工具背後的人工智慧系統。它們經過海量文本的訓練，學習語言模式，從而能夠生成看似非常像人類的回應。

當給予包含五個顏色詞彙的簡短列表時，AI 系統通常表現良好，即使詞彙和顏色不匹配。

然而，隨著列表變長，情況發生了戲劇性的變化。

GPT-4o 在處理五個詞彙時準確度達到 91%。在十個詞彙時，其準確度下降到 57%。當列表擴展到四十個詞彙時，準確度僅下降到 15%。

Claude 3.5 Sonnet 在處理長達二十個詞彙的列表時保持了穩定的表現，但在處理四十個詞彙的列表時，準確度急劇下降至 24%。

研究人員在 GPT-5、Claude Opus 4.1 和 Gemini 2.5 中觀察到類似的模式。

當匹配和不匹配的顏色詞彙出現在同一列表中時，挑戰變得更加困難。

在這些條件下，表現進一步惡化。在某些情況下，不匹配項的準確度下降到接近零。

研究人員表示，AI 模型在維持辨識墨水顏色的指令方面遇到了困難。相反，它們越來越傾向於閱讀詞彙本身。

換句話說，這些系統似乎無法持續抑制它們最常被訓練產生的反應。

這一發現尤其有趣，因為人類面臨著類似的衝突。人們通常比辨識墨水顏色更擅長閱讀詞彙。然而，儘管存在這種偏見，大多數人在面對長串衝突的詞彙和顏色時，仍能保持高準確度和穩定的表現。

人類注意力 vs. 機器注意力

這項研究突顯了人類智慧與人工智慧之間的重要區別。

儘管現代 AI 系統能夠產生令人印象深刻的語言和推理能力，但其底層機制與生物大腦中的注意力過程不同。

人類通常能夠在過濾掉競爭資訊的同時，持續專注於特定目標。結果表明，當任務變得越來越艱鉅時，目前的 AI 模型可能難以應對這種認知控制。

研究人員認為，在這些實驗中觀察到的表現崩潰，表明了當前大型語言模型的根本限制。雖然 AI 有時可以模仿人類行為，但其維持注意力的能力似乎與人類的方式運作非常不同。

這些發現提醒我們，即使是最先進的 AI 系統仍然存在弱點，尤其是在任務要求它們抵抗干擾並在長時間資訊序列中保持專注時。

經典大腦測試揭示 AI 的最大弱點：專注力