全新 APEX-Agents 基準測試：頂尖 AI 處理白領任務成功率竟不足 25%

雖然 OpenAI 和 Google 每天都在推銷 AI 代理（AI Agents）將如何接管辦公室，但現實潑了一盆冷水。訓練數據巨頭 Mercor 最近發布了名為「APEX-Agents」的全新基準測試，模擬投行、法律與諮詢業的真實工作場景。結果顯示，目前市面上最強的 AI 模型集體「不及格」。即便是表現最好的 Gemini 3 Flash，準確率也僅有 24%，而眾所期待的 GPT-5.2 則以 23% 緊隨其後。這意味著，如果你現在把重要的法律合約或投資評估交給 AI，它有超過四分之三的機率會給你一個錯誤答案，或者直接「裝死」回覆。

為什麼 AI 在辦公室會變「薪水小偷」？

Mercor 執行長 Brendan Foody 告訴 TechCrunch 指出，AI 最大的痛點在於**「跨領域推理」**。現實世界的工作不是把所有資料餵到一個對話框裡就能解決的。真正的白領工作需要你在 Slack 討論紀錄、Google Drive 的數百個資料夾以及公司的規章制度之間反覆橫跳、串聯資訊。目前大多數 AI 模型在這種複雜的多工具協作中，表現得像個完全沒進入狀況的實習生。

法律與投行的考驗：這不是 Google 搜尋能解決的

APEX-Agents 的測試題目有多難？舉個例子，它會問 AI：某公司在系統故障期間將含有個資的日誌導出到美國，根據公司內規是否符合歐盟《通用資料保護規則》（GDPR）第 49 條？要回答這個問題，AI 必須同時理解該公司的私法政策與歐盟法律。這種需要極高專業知識與邏輯推演的任務，正是目前白領工作的核心，也是 AI 難以攻克的堡壘。

比慘大賽：誰才是最強實習生？

雖然大家都不及格，但排位賽還是要打的。在這次測試中，Google 的 Gemini 3 Flash 意外拔得頭籌，稍微領先於 OpenAI 的 GPT-5.2。而那些被寄予厚望的頂級模型如 Opus 4.5、Gemini 3 Pro 和 GPT-5，準確率竟然都落在 18% 左右。這說明了「模型大」不代表「會做事」，在特定專業領域的執行力上，目前的 AI 還有很長的路要走。