硅谷大力押注“環境”技術,用于訓練AI智能體

多年來,環境科技巨頭的硅谷首席執行官們一直宣揚AI智能體(AI agents)的愿景 —— 這類智能體可自主使用軟件應用為人類完成任務。但如今將消費者級 AI 智能體(無論是大力 OpenAI 的 ChatGPT Agent,還是押注用于 Perplexity 的 Comet)投入實際使用便會發現,這項技術的技術局限性仍十分明顯。要讓 AI 智能體具備更強的訓練穩健性,或許需要行業尚未完全探索出的環境一系列新技術支持。
其中一項技術便是硅谷精心模擬 “工作空間”,讓智能體在其中接受多步驟任務訓練 —— 這種 “工作空間” 被稱為強化學習(reinforcement learning,大力簡稱 RL)環境。押注用于正如帶標簽的技術數據集推動了上一波 AI 發展浪潮,強化學習環境正逐漸成為智能體開發過程中的訓練關鍵要素。
AI 研究人員、環境創業者及投資者透露,硅谷目前頂尖 AI 實驗室對強化學習環境的大力需求大幅增加,而有意提供此類技術的初創公司也不在少數。
“所有大型 AI 實驗室都在內部搭建強化學習環境,” 安德森?霍洛維茨基金(Andreessen Horowitz)普通合伙人珍妮弗?李表示,“但可想而知,創建這類數據集的復雜度極高,因此 AI 實驗室也在尋找能打造高質量環境與評估體系的第三方供應商。整個行業都在關注這一領域。”
對強化學習環境的需求催生了一批資金雄厚的新興初創公司,例如 Mechanize Work 和 Prime Intellect,這些公司均致力于在該領域占據領先地位。與此同時,Mercor、Surge 等大型數據標注公司表示,隨著行業正從靜態數據集向交互式模擬轉型,它們也在加大對強化學習環境的投入以跟上趨勢。大型實驗室同樣在考慮巨額投資:據《The Information》報道,Anthropic 的管理層已討論計劃在未來一年內,為強化學習環境投入超 10 億美元。
投資者與創業者們期望,這些初創公司中能誕生出 “強化學習環境領域的 Scale AI”—— 這里的 Scale AI 是估值 290 億美元的數據標注巨頭,曾為聊天機器人時代的發展提供了重要支撐。
目前的核心問題在于,強化學習環境是否真能推動 AI 技術突破現有邊界。
什么是強化學習(RL)環境?
從本質上講,強化學習環境是模擬 AI 智能體在真實軟件應用中操作場景的 “訓練場”。一位創業者在近期采訪中形容其構建過程 “就像制作一款非常枯燥的電子游戲”。
例如,某個環境可模擬 Chrome 瀏覽器,并向 AI 智能體下達 “在亞馬遜上購買一雙襪子” 的任務。系統會對智能體的表現進行評分,若任務成功(即買到合適的襪子),便會向其發送 “獎勵信號”。
盡管這類任務聽起來相對簡單,但 AI 智能體在執行過程中仍可能在多個環節出錯:可能在網頁下拉菜單中 “迷路”,也可能誤購多雙襪子。由于開發者無法精準預測智能體可能出現的失誤,環境本身必須具備足夠的穩健性,既能捕捉所有意外行為,又能提供有效的反饋 —— 這使得構建環境的復雜度遠高于創建靜態數據集。
部分強化學習環境設計十分復雜,可支持 AI 智能體使用工具、訪問互聯網或調用各類軟件應用完成指定任務;另有部分環境則定位更細分,專注于幫助智能體學習企業級軟件應用中的特定任務。
盡管強化學習環境如今是硅谷的熱門技術,但使用這類技術的先例早已有之。2016 年,OpenAI 的首批項目之一便是構建 “RL Gyms”(強化學習場館),其理念與現代強化學習環境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系統擊敗圍棋世界冠軍,該系統同樣在模擬環境中采用了強化學習技術。
如今的強化學習環境之所以具有獨特性,在于研究人員正嘗試結合大型 Transformer 模型,打造能 “使用計算機” 的 AI 智能體。與 AlphaGo(僅適用于封閉環境的專用 AI 系統)不同,如今的 AI 智能體旨在具備更通用的能力。當前的 AI 研究人員雖擁有更堅實的技術起點,但目標也更為復雜,可能出現的問題也更多。
競爭激烈的領域
Scale AI、Surge、Mercor 等 AI 數據標注公司正積極順應趨勢,著力打造強化學習環境。這些公司不僅比該領域多數初創企業擁有更充足的資源,還與 AI 實驗室建立了深厚的合作關系。
Surge 首席執行官埃德溫?陳(Edwin Chen)表示,近期已觀察到 AI 實驗室對強化學習環境的需求 “顯著增長”。他透露,Surge 去年通過與 OpenAI、谷歌、Anthropic、Meta 等 AI 實驗室合作,營收據稱達到 12 億美元;該公司近期已成立專門的內部團隊,負責強化學習環境的搭建工作。
緊隨 Surge 之后的是估值 100 億美元的初創公司 Mercor,該公司同樣與 OpenAI、Meta、Anthropic 有合作。TechCrunch 獲取的營銷材料顯示,Mercor 正向投資者推介其核心業務 —— 為編程、醫療、法律等特定領域任務打造強化學習環境。
Mercor 首席執行官布倫丹?富迪(Brendan Foody)在采訪中表示:“很少有人真正意識到,強化學習環境領域蘊含的機遇究竟有多大。”
Scale AI 曾在數據標注領域占據主導地位,但自 Meta 投資 140 億美元并挖走其首席執行官后,該公司的市場份額逐漸下滑。此后,谷歌和 OpenAI 不再將 Scale AI 列為數據供應商,甚至在 Meta 內部,Scale AI 也面臨數據標注業務的競爭壓力。盡管如此,Scale AI 仍在努力適應趨勢,投身強化學習環境的構建。
“這正是(Scale AI)所處行業的本質,”Scale AI 負責智能體與強化學習環境的產品負責人切坦?拉內(Chetan Rane)表示,“Scale 已證明其快速適應的能力:在我們的首個業務板塊 —— 自動駕駛領域的早期階段,我們做到了這一點;ChatGPT 問世后,Scale AI 也成功適應了新趨勢;如今,我們再次在智能體、環境等新前沿領域進行調整。”
部分新興企業從創立之初便專注于強化學習環境領域。成立約 6 個月的初創公司 Mechanize Work 便是其中之一,該公司提出了 “實現所有工作自動化” 的大膽目標。不過,聯合創始人馬修?巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正從為 AI 編程智能體打造強化學習環境起步。
巴尼特表示,Mechanize Work 計劃為 AI 實驗室提供少量高穩健性的強化學習環境,而非像大型數據公司那樣打造大量簡單的強化學習環境。為此,該初創公司為軟件工程師開出了 50 萬美元的年薪(用于構建強化學習環境),這一薪資遠高于在 Scale AI 或 Surge 從事小時工性質工作的報酬。
兩位知情人士透露,Mechanize Work 已開始與 Anthropic 合作開發強化學習環境。對此,Mechanize Work 與 Anthropic 均拒絕就合作細節置評。
另有部分初創公司押注強化學習環境在 AI 實驗室之外的領域也將產生影響力。由 AI 研究員安德烈?卡帕西(Andrej Karpathy)、Founders Fund 風投、Menlo Ventures 風投支持的初創公司 Prime Intellect,正將其強化學習環境定位為服務中小型開發者。
上個月,Prime Intellect 推出了強化學習環境中心,目標是打造 “強化學習環境領域的 Hugging Face”(Hugging Face 為 AI 領域知名開源社區)。該平臺旨在讓開源開發者獲得與大型 AI 實驗室同等的資源支持,同時在此過程中向開發者出售計算資源訪問權限。
Prime Intellect 研究員威爾?布朗(Will Brown)表示,在強化學習環境中訓練具備通用能力的智能體,所需的計算成本可能高于以往的 AI 訓練技術。因此,除了打造強化學習環境的初創公司,為這一過程提供算力支持的 GPU 供應商也將迎來機遇。
“沒有任何一家公司能獨自主導強化學習環境領域,其規模太大了,” 布朗在采訪中說,“我們目前所做的部分工作,只是嘗試圍繞該領域搭建良好的開源基礎設施。我們的核心服務是提供計算資源,這確實是使用 GPU 的便捷入口,但我們更著眼于長期發展。”
能否實現規模化發展?
關于強化學習環境,目前尚未有定論的問題是:這項技術能否像以往的 AI 訓練方法那樣實現規模化發展?
過去一年,強化學習推動了 AI 領域多項重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。這些突破意義重大,因為此前用于改進 AI 模型的方法如今正顯現出 “收益遞減” 的趨勢。
強化學習環境是 AI 實驗室對強化學習技術 “更大押注” 的一部分 —— 許多人認為,隨著在該技術中投入更多數據與計算資源,強化學習將持續推動 AI 進步。OpenAI 負責 o1 模型的部分研究人員此前透露,該公司最初之所以投資 AI 推理模型(通過對強化學習和測試時計算的投入開發而成),正是因為他們認為這類模型具備良好的規模化潛力。
目前,強化學習實現規模化的最佳路徑尚不明確,但強化學習環境似乎是頗具潛力的方向。與僅通過文本回復獎勵聊天機器人不同,強化學習環境能讓智能體在模擬場景中操作工具、使用計算機完成任務 —— 這種方式雖然對資源的消耗遠更高,但潛在的回報也更大。
也有部分人士對強化學習環境的發展前景持懷疑態度。曾擔任 Meta AI 研究負責人、現聯合創立 General Reasoning 公司的羅斯?泰勒表示,強化學習環境容易出現 “獎勵作弊”(reward hacking)現象 —— 即 AI 模型為獲得獎勵而 “作弊”,并未真正完成任務。
“我認為人們低估了環境規模化的難度,” 泰勒說,“即便是目前公開可用的最佳(強化學習環境),若不進行大幅修改,通常也無法正常使用。”
OpenAI API 業務工程負責人舍溫?吳(Sherwin Wu)在近期播客中表示,他對強化學習環境領域的初創公司 “持看空態度”。吳指出,該領域競爭異常激烈,且 AI 研究發展速度極快,要為 AI 實驗室提供優質服務難度很大。
卡帕西(作為 Prime Intellect 的投資者,曾稱強化學習環境可能成為突破性技術)也對整個強化學習領域表達了謹慎態度。他在社交平臺 X 的帖子中提出疑問:通過強化學習技術,AI 還能實現多大程度的進步?
“我對環境與智能體交互持樂觀態度,但對強化學習本身持悲觀態度。” 卡帕西表示。
本文地址:http://www.czbtz.com/news/83d12199795.html
版權聲明
本文僅代表作者觀點,不代表本站立場。
本文系作者授權發表,未經許可,不得轉載。