雖然 OpenAI 和 Google 每天都在推銷 AI 代理(AI Agents)將如何接管辦公室,但現實潑了一盆冷水。訓練數據巨頭 Mercor 最近發布了名為「APEX-Agents」的全新基準測試,模擬投行、法律與諮詢業的真實工作場景。結果顯示,目前市面上最強的 AI 模型集體「不及格」。即便是表現最好的 Gemini 3 Flash,準確率也僅有 24%,而眾所期待的 GPT-5.2 則以 23% 緊隨其後。這意味著,如果你現在把重要的法律合約或投資評估交給 AI,它有超過四分之三的機率會給你一個錯誤答案,或者直接「裝死」回覆。
為什麼 AI 在辦公室會變「薪水小偷」?
Mercor 執行長 Brendan Foody 告訴 TechCrunch 指出,AI 最大的痛點在於**「跨領域推理」**。現實世界的工作不是把所有資料餵到一個對話框裡就能解決的。真正的白領工作需要你在 Slack 討論紀錄、Google Drive 的數百個資料夾以及公司的規章制度之間反覆橫跳、串聯資訊。目前大多數 AI 模型在這種複雜的多工具協作中,表現得像個完全沒進入狀況的實習生。
法律與投行的考驗:這不是 Google 搜尋能解決的
APEX-Agents 的測試題目有多難?舉個例子,它會問 AI:某公司在系統故障期間將含有個資的日誌導出到美國,根據公司內規是否符合歐盟《通用資料保護規則》(GDPR)第 49 條?要回答這個問題,AI 必須同時理解該公司的私法政策與歐盟法律。這種需要極高專業知識與邏輯推演的任務,正是目前白領工作的核心,也是 AI 難以攻克的堡壘。
比慘大賽:誰才是最強實習生?
雖然大家都不及格,但排位賽還是要打的。在這次測試中,Google 的 Gemini 3 Flash 意外拔得頭籌,稍微領先於 OpenAI 的 GPT-5.2。而那些被寄予厚望的頂級模型如 Opus 4.5、Gemini 3 Pro 和 GPT-5,準確率竟然都落在 18% 左右。這說明了「模型大」不代表「會做事」,在特定專業領域的執行力上,目前的 AI 還有很長的路要走。
短評:AI 現在就像那個錄取通知書寫得很漂亮,但上班第一天連印表機都不會用的實習生。
說白了,AI Agent 目前還處於「只會考試,不會上班」的尷尬階段。
雖然像 OpenAI 這樣的公司一直在強調 AI 的專業技能,但 APEX-Agents 的結果告訴我們:能背下整本法典,跟能幫公司打贏一場官司,完全是兩回事。這種「跨工具、跨領域」的整合能力,才是人類白領最後的護城河。
現階段,比起擔心被 AI 取代,白領精英們更應該擔心的是:如果老闆看了這些宣傳,真的把工作丟給準確率只有 24% 的 AI,最後要出來收爛攤子的恐怕還是我們這些可憐的人類。
雖然進步速度很快(從去年的 5% 進步到現在的 24%),但在 AI 真正能獨立處理一份投資報告之前,大家還是先把履歷上的「AI 協作專家」字樣收起來,乖乖把 Excel 練好吧。




