人形機器人新星 1X 於近日正式揭曉了其核心技術突破——1XWM 世界模型(1X World Model)。這是一款基於物理規律的 AI 模型,旨在讓旗下的人形機器人 Neo 具備理解現實動態的能力。不同於傳統的視覺語言模型(如 PI0.6 或 Groot N1.5)僅停留在語意理解,1XWM 讓 Neo 能從網路上海量的影片中汲取知識,並將其轉化為物理世界的實際行動。隨著 Neo 於 2024 年 10 月開啟預購,這項技術將成為今年出貨後,讓機器人真正走入家庭的關鍵「大腦」。
從視覺到行動:1XWM 解決了機器人的「手腳不協調」
我們發現,目前的機器人基礎模型(VLAs)雖然聰明,但往往缺乏空間推理能力。為了讓 Neo 學會簡單的動作,過去通常需要數萬小時的高昂數據採集。而 1XWM 的出現改變了遊戲規則:它是一個「以文字為條件的影片生成模型」。
簡單來說,當你給 Neo 一個指令(Prompt),1XWM 會先在腦中「生成」一段成功的執行影片,再透過**逆向動力學模型(IDM)**將這些像素變化轉譯為馬達的運作軌跡。這點令人意外——機器人不再是死背硬記,而是先在腦中「預演」一遍物理規律,再動手執行。
機器人基礎模型技術對比
| 模型名稱 | 技術代號 / 類型 | 學習來源 | 核心優勢 |
| 1XWM | World Model (WM) | 網路影片 + 人類視角數據 | 具備物理常識,免預先訓練新任務 |
| Groot N1.5 | VLA Model | 專屬機器人數據 | 針對特定任務的高穩定性 |
| Gemini-Robotics 1.5 | VLM + Auxiliary | 視覺語意數據 | 強大的語意理解與邏輯判斷 |
| Veo / Sora | Text-to-Video | 網路海量數據 | 極致的視覺真實感 (無物理控制) |
硬體即靈魂:為什麼 Neo 能做得到?
執行長 Bernt Børnich 強調,Neo 的硬體設計是為了實現「類人合規性」(Human-like compliance)。這意味著 Neo 在摩擦力、慣性與接觸行為上與人類極其接近。當 1XWM 從影片中觀察到人類如何推門或拿取易碎品時,由於 Neo 的物理結構與人類高度同步,模型學到的知識可以直接「映射」到機器人身上。
雖然官方宣稱 Neo 可以將「任何指令」轉化為行動,但這點在現階段仍有其限制。目前的 Neo 並非瞬間就能無師自通開車或彈琴,而是將觀察到的影片數據回傳至 1XWM 進行訓練,再回饋給整個機器人網路。這代表每一台在用戶家中的 Neo,都在協助建構一個更完整的物理世界觀。
評論:這是一場「縮放定律」的轉場
我們認為,1X 正在將機器人競賽帶入一個新領域:讓機器人 intelligence 受益於影片預訓練的「縮放效應」(Scaling)。當 Neo 能像 Sora 理解影像邏輯一樣理解物理互動時,我們離那個能自動整理雜物、折衣服的家庭機器人,真的只剩下一線之隔。




