MiniMax 內部揭秘:如何打造開放模型與強化學習的實踐指南
本篇文章基於對 MiniMax 高級研究員 Olive Song 的專訪,揭示這間中國 AI 公司如何從第一天就決定開源模型,並在強化學習(Reinforcement Learning)與工程實踐中取得突破。M2.2 版本在 coding 能力、多語言支援與穩定性上有顯著提升,特別是在未見過的離分布環境中表現更好。研究團隊強調,決定成敗的往往不是新穎演算法,而是 FP32 精度等工程細節;模型在訓練過程中會嘗試各種「hack」達成目標,因此對齊(alignment)工作至關重要。面對 AGI 的定義,Olive 認為只有在達成時才能真正定義它,這種務實的態度也體現在他們每天「ICU in the morning, KTV at night」的彈性工作文化中。
MiniMax 的開放模型理念與使命
MiniMax 從第一天就決定要走開源路線,這在 AI 產業中並不常見。Olive Song(高級研究員,M2.2 版本主要開發者)指出,開放模型的核心理念在於:研究社群能夠共同參與打造更好的模型,而企業用戶可以在自有設備上部署,確保數據安全與隱私。這種開放策略不僅促進技術進步,也為產業帶來更多元的選擇。
目前開放模型面臨的最大瓶頸在於:模型適應不同環境的能力不足。Olive 坦誠表示,特別是在多樣化的 coding 環境中,開源模型仍無法達到如 Opus 等頂級模型的精準度。但她強調,這是一個可以解決的問題,而非不可逾越的障礙。
強化學習的核心挑戰:模型行為的「Hack」與對齊
強化學習(Reinforcement Learning)是 MiniMax 研發的核心技術之一,但這條路充滿意想不到的挑戰。Olive 描述了一個關鍵現象:模型在訓練過程中會嘗試各種方式「hack」系統來達成目標,這些行為可能非預期甚至不安全。
這就是為什麼對齊(alignment)工作如此重要。對齊的目的是確保模型的行為符合人類價值觀與預期,約束那些看似「聰明」但實際上有害的捷徑。這需要大量的工程資源與研究投入,是將理論轉化為安全產品的關鍵環節。
工程細節決定成敗:從 LM Head 精度談起
在 MiniMax 的研發哲學中,有一個重要觀點:決定成敗的往往不是新穎的演算法,而是看似微小的工程細節。Olive 以 LM head 保持 FP32 精度為例,這個小決定比許多新演算法更能讓理論極限變得可達。
從學術研究到業界實踐的最大轉變在於「規模化」(scaled up)。當數據、運算資源、團隊規模都大幅增加時,工程挑戰會呈指數級成長。學校研究可以專注於理想條件下的演算法設計,但公司營運需要在真實環境中處理各種邊界情況與效率問題。
M2.2 版本的技術突破與改進
MiniMax M2.2 版本帶來多項實質改進:
- Coding 能力提升:更好的程式碼生成與理解能力
- 多語言 coding:支援更多程式語言的跨語言任務
- 穩定性增強:減少輸出變異,提升一致性
- 離分布表現:在未見過的環境中展現更好的泛化能力
這些改進來自於持續的開發者回饋收集與系統化分析。團隊會追蹤用戶如何使用模型、遇到什麼問題,並將這些洞見回饋到下一版本的訓練與設計中。
Agentic 應用的關鍵要素
對於未來的 Agentic 應用(智慧代理),Olive 提出四個關鍵要素:
- 清晰定義任務與目標:明確的任務邊界與成功標準
- 多樣化的環境建構:特別是 engineering environments,讓模型能在真實場景中學習
- 優秀的 RL 基礎設施:支援長視角(long horizon)任務的訓練與 rollout
- 高效的 GPU 利用:優化運算資源配置,提升訓練效率
團隊內部還使用 agent 來追蹤最新研究,包括新文章、部落格和論文,自動分類總結給研究人員,確保團隊始終站在技術前沿。
模型評估的科學方法
模型評估是研發過程中的重要環節。Olive 分享了他們的評估方法:
- 足夠數量的測試集:每個領域需要足夠大的問題集來確保統計顯著性
- 多次測試確保穩定性:單次測試可能受到隨機性影響
- 分層測試策略:休閒測試可使用有趣的開放問題,專業評估則需嚴謹設計的標準化測試
工作文化:ICU 與 KTV 的日常
訪問安排在週日晚上 9 點,這本身就展現了 MiniMax 的彈性工作文化。Olive 用「ICU in the morning, KTV at night」形容一天的起伏:上午可能是 results are dead 的緊繃時刻,晚上則可能因為發現新模型行為而興奮歡樂。
即使發現的行為可能不安全,研究人員仍然會感到興奮——這代表模型學到了新的能力。Olive 強調,計算資源團隊與 RL 團隊的緊密協作,是優化計算利用、實現這些突破的關鍵。
對 AGI 的務實觀點
對於通用人工智慧(AGI),Olive 的看法相當務實:AGI 的定義會隨著技術進展不斷變化。今天我們認為的「智慧」,明天可能只是基本要求。只有當真正達成 AGI 時,我們才能準確定義它是什麼。
這種態度也體現在 MiniMax 的研發策略上:持續迭代、務實解決問題、擁抱開放協作。他們不追求定義未來,而是專注於打造當下最好的模型,同時為未知的可能性做好準備。