使用Codex構建自我改善的稅務代理

由技術團隊成員：Aravind Srinivasan & Samay Shamdasani (Thrive Holdings)，Arthur Fernandes Araujo & John de Wasseige (OpenAI)

Thrive Holdings 與 OpenAI 如何透過結合實務專家知識與以 Codex 為核心的循環，共同開發出專為克里特會計師打造的 Tax AI

真實世界的系統在實際部署時，其行為與實驗室環境大相逕庭，可能出現難以預測的故障。團隊常在系統上線後才發現這些問題，接著花費數週時間檢查邊緣案例、調整提示詞，並將生產環境的回饋轉化為穩定的產品改進。這個回饋循環是手動且緩慢的，僅在工程師推動時才能進步。但如今，透過精心設計的評估基礎設施、直接接觸實務專家與真實環境，以及 Codex 前沿的代理能力，您可以建構出能夠自我改進的代理系統。

在這篇文章中，我們將深入探討如何利用 Codex 建構這類代理系統。過去六個月來，OpenAI 的工程師與研究人員與 Thrive Holdings 的工程師合作，為克里特 (Crete) 擁有 30 多家會計師事務所的網絡，共同開發並部署了 Tax AI，以協助處理日益複雜的稅務申報。Tax AI 不再依賴工程師逐一發現和修復錯誤，而是利用 Codex 將生產環境的使用情況轉化為結構化訊號，以驅動自主改進。

克里特的稅務專業人員每季需要處理數萬份稅務申報，涉及數百萬份底層文件。對於中等到複雜程度的申報，僅資料輸入就可能需要每份申報八小時，且常涉及混亂的資料來源、前一年的文件，以及手動提取和計算。他們指出，在稅務高峰期，稅務準備是一個顯著的瓶頸。

為了解決這個問題，Tax AI 在本稅務季處理了參與試點的克里特事務所的 7,000 份稅務申報。該系統自動化了準備 1040 和 1041 表格稅務申報中許多耗時的過程，但更引人注目的是，該系統本身比三個月前首次部署的版本有了顯著的改進。

在 Tax AI 中，稅務專業人員上傳原始文件以及任何客戶特定的筆記。Tax AI 然後創建一個稅務引擎提交檔，準備供審閱。這為稅務專業人員節省了約三分之一的稅務準備時間，以高達 97% 的準確度起草申報表，並將處理量提高了約 50%，為他們騰出更多時間與客戶互動。

我們可以透過了解 Tax AI 在無需後續更正的情況下完成申報的準確度來量化這種改進。我們透過檢查申報表中正確欄位完成率達到 75%、90% 或 100% 的比例來衡量準確度。在推出時，只有四分之一的申報表在欄位完成率上達到 75%，但在六週內，86% 達到了該標準。系統在 90% 和 100% 的欄位完成率方面顯示出更快的成長。這些閾值為我們提供了實際的視角，了解不同申報表需要多少稅務專業人員的後續處理。

早期，Tax AI 處理較簡單的工作，例如 W-2 和 1099 表格。隨著季節的推進，它開始處理更複雜的申報，包括 K-1 表格、附表以及更難處理的邊緣案例。由於它處理的任務更困難且手動處理更耗時，因此每份申報節省的時間都比之前更多。我們至今仍持續看到進步。

接下來，我們將逐步介紹我們的團隊如何透過三個關鍵支柱來共同建構 Tax AI 的自主學習能力：1) 專家稅務專業人員的回饋，2) 生產追蹤 (從輸入到最終輸出的結構化歷史記錄)，以及 3) 以量身定制的評估為基礎的 Codex 驅動迭代循環，以實現持續、更快的產品開發。我們希望我們的經驗能對其他在專業知識對系統品質和數據至關重要的領域的建構者有所幫助。

隨著 Tax AI 擴展到更複雜的申報，在稅務季期間，達到 75%、90% 和完整完成率的評分申報比例持續上升。

當我們深入研究稅務準備的更困難部分時（K-1 表格、租賃房地產附表，以及需要在多個來源文件之間核對數值的稅務表格），顯然真正的挑戰在於產品是否能夠使複雜的生產故障變得可見、可理解且可操作。

在產品的早期階段，大部分的更正都是手動的。稅務專業人員可以更正系統錯誤，但產品並未捕捉到完整的上下文：在提交前更改的值可能反映了真實的提取錯誤、映射問題、產品支援不足，或預期的工作流程噪音。要釐清這些情況仍然需要工程團隊的後續處理。工程師可以使用編碼代理，但系統尚未設計成能在改進循環中有意義地使用 AI。我們沒有足夠的訊號來確定應該優先解決哪個問題。

這促使我們圍繞三個支柱設計系統：

下方的租賃房地產範例展示了該循環的實際運作方式，引導您了解稅務專業人員的更正如何轉化為結構化發現，然後成為評估目標，最終成為以 Codex 為範圍的工程任務。

租賃房地產收入在個人稅務申報的附表 E 中申報。從工程角度來看，提取這項任務的描述很簡單，但要做好卻很困難。系統必須讀取混亂的原始材料（手寫筆記、電子郵件、試算表和其他客戶文件），提取系統能夠自信地映射到稅務引擎的租賃房地產欄位，並保留足夠的證據供稅務專業人員批准或更正結果。下方的簡化範例顯示了這些原始文件和提取的輸出可能是什麼樣子。

租賃房地產來源套件在映射到下游稅務引擎概念之前，會被標準化為帶有引用的欄位。

代理預測值與提交稅務申報表中的實際值之間的差異可能反映了真實的提取錯誤，但也可能是稅務專業人員的偏好、稅務引擎中從前一年申報表中帶入的值，或是申報工作流程中其他地方引入或更改的值。稅務專業人員幫助我們辨別這些情況，以便我們確定哪些操作需要稅務專業人員更正或阻止提交。

由於我們可以詳細查看這些更正，因此我們將審閱流程從一個終結的、事後失敗的步驟轉變為一個持續學習的循環。我們將工作流程設計為將專家操作捕獲為結構化數據。現在，每一次干預都透過記錄 Tax AI 提出的內容、稅務專業人員修改的內容以及最終提交到申報表中的內容，為產品的改進循環提供養分。

對於像租賃房地產這樣複雜的工作流程，系統必須保留原始文件與提交申報表之間的過程。在此過程中，文件被組織、分割和分類；租賃房地產欄位被提取並引用回原始材料；這些值被映射到稅務引擎；稅務專業人員在提交前仍可能對其進行更正。這些產品級的追蹤使得調查故障發生的位置成為可能。為了將稅務專業人員的更正轉化為有用的評估目標，系統會分三個步驟處理它們：

租賃房地產審閱行將重複出現的產品故障與預期的噪音分開，然後將可操作的案例轉化為評估目標，讓 Codex 有明確的改進方向。

第三個支柱是創建一個能夠根據這些新評估採取行動的工程循環。這就是 Codex 的核心作用所在。

假設我們的評估管道標記出 Tax AI 持續遺漏「公平租賃天數」欄位，而稅務專業人員則可靠地填寫了該欄位。由於此發現已經被打包成一個有針對性的評估集，其中包含代表性的來源套件和預期輸出，Codex 可以直接在產品框架內調查根本原因。

Codex 並非僅僅處理一個次優的最終輸出。它會一起檢查追蹤、評估、儲存庫和技能：

端對端的自主改進循環：生產追蹤會浮現重複的欄位級更正，這些更正成為 Codex 可以與追蹤、評估、儲存庫和技能一起檢查的故障訊號。可操作的模式會變成有界評估和候選產品變更；模糊的案例會回傳給工程師進行審閱。每一次發布的改進都會為下一個週期產生新的生產證據。

租賃房地產的範例代表了一種更廣泛的可重複使用的模式：利用生產工件和追蹤來改進代理的能力。鑑於生產數據的審閱發現、來源追蹤、預期的稅務引擎輸出、相關程式碼範例和評估命令作為一組輸入，Codex 可以在數週和數月內顯著提高性能和準確性。這建立在我們關於 Harness Engineering 和 Symphony 工作中所描述的原則之上，這些工作說明了如何讓任務對 Codex 可讀，提供範圍化的上下文和工具，並將驗證和人工審閱納入環境中。

這些證據不會自動成為 Codex 的任務。稅務專業人員的更正可能反映了提取錯誤、映射問題、不受支援的產品行為、稅務判斷或預期的工作流程噪音。只有在重複的差異經過審閱並歸類為可操作的發現後，系統才會將其轉化為具有明確成功條件的有界任務。

我們將此自動化應用於產品的有界層。該層負責提取並將來源文件映射到稅務工作流程。工程師仍然負責架構、產品決策和發布。稅務專業人員透過他們已經在做的工作來引導改進循環：更正提取的值、審閱申報表以及批准最終提交。

對於 Codex 而言，結果不是一個模糊的警報，而是一個有證據、可編輯的產品介面和明確驗證門檻的有界工程任務。代表性的租賃房地產任務的上下文可以總結如下：

有界 Codex 任務環境將可寫入的工作樹 [1] 與唯讀的生產上下文 [5] 分開。工作樹包含 Codex 可以檢查或修改的有界產品介面 [2]、定義成功的目標和回歸評估 [3]，以及編碼如何運行任務和尊重先前決定的可重複使用技能/文件 [4]。唯讀上下文提供生產追蹤、來源文件、Tax AI 預測、最終申報表和稅務引擎欄位文件，以便 Codex 可以在不修改底層證據的情況下調查故障。

相同的循環也適用於租賃房地產以外的領域。租賃房地產花了約六週時間和大量的工程監督才達到 90% 的精確度和召回率，但這項工作產生了可重複使用的抽象、審閱工件、評估約定和實現模式，使得支持類似複雜的附表（如附表 C 和附表 A）變得更加容易。

Tax AI 證明了一條建構自主學習代理的途徑。稅務專業人員透過提供服務產生高價值的回饋訊號。產品工作流程將這些訊號保存為結構化證據。由評估支持的工程系統在改進發布到生產環境之前進行驗證，而由代理驅動的循環則使系統保持持續自主學習的流程。

Thrive Holdings 的結構使我們能夠在特定行業複製這種環境。Holdings 既是所有者也是營運者，因此我們的聯合工程團隊能夠直接與來自 Crete 等企業內部的稅務專業人員和生產數據合作，不是作為供應商，而是作為合作夥伴。這意味著技術、產品和服務都在同一個屋簷下，幫助我們加快速度並建構卓越的產品。

一位去年花費 180 小時進行稅務準備的高級會計師，今年僅花了 15 小時。她將部分時間用於致電她的所有客戶，並逐一與他們討論他們的申報表，這是一種前所未有的高接觸服務水平。她利用剩餘的時間來承接新客戶並擴展新的服務項目。

我們的團隊現在正在將 Tax AI 的相同三部分設計作為藍圖，用於在 Thrive Holdings 的其他領域建構工作流程；包括會計工作流程，如簿記和審計，以及營運工作流程，如 IT 服務台自動化。跨越不同領域和行業，自主學習代理的更廣泛前景依然存在。最好的代理系統由人們引導，以學習隨著時間變得更強大、更值得信賴、更有價值。

OpenAI Codex 打造自主學習的報稅助手 Tax AI

相關新聞

‘這很好’藝術家KC Green與AI初創公司Artisan達成協議

Deflock 在美國地圖上標記了 100,000 個自動牌照辨識系統

Meta 推出 Instagram、Facebook 和 WhatsApp 訂閱服務

監獄大突破：從烏克蘭學習如何讓武器互相溝通

人工智慧時代的原型設計速度

美聯航航班因藍牙揚聲器名稱被迫返航