无码中文字幕色专区_精品视频在线观看一区_免费黄色一级网站_2018中文字幕第一页_午夜一区二区视频_精品久久久久久中文字幕2017_男女激情免费视频_182午夜视频_国产精品网站免费_亚洲免费av一区

硅谷大力押注“環境”技術,用于訓練AI智能體

時間:2025-12-01 19:10:31 來源:柳煙花霧網

  多年來,環境科技巨頭的硅谷首席執行官們一直宣揚AI智能體(AI agents)的愿景 —— 這類智能體可自主使用軟件應用為人類完成任務。但如今將消費者級 AI 智能體(無論是大力 OpenAI 的 ChatGPT Agent,還是押注用于 Perplexity 的 Comet)投入實際使用便會發現,這項技術的技術局限性仍十分明顯。要讓 AI 智能體具備更強的訓練穩健性,或許需要行業尚未完全探索出的環境一系列新技術支持。

  其中一項技術便是硅谷精心模擬 “工作空間”,讓智能體在其中接受多步驟任務訓練 —— 這種 “工作空間” 被稱為強化學習(reinforcement learning,大力簡稱 RL)環境。押注用于正如帶標簽的技術數據集推動了上一波 AI 發展浪潮,強化學習環境正逐漸成為智能體開發過程中的訓練關鍵要素。

  AI 研究人員、環境創業者及投資者透露,硅谷目前頂尖 AI 實驗室對強化學習環境的大力需求大幅增加,而有意提供此類技術的初創公司也不在少數。

  “所有大型 AI 實驗室都在內部搭建強化學習環境,” 安德森?霍洛維茨基金(Andreessen Horowitz)普通合伙人珍妮弗?李表示,“但可想而知,創建這類數據集的復雜度極高,因此 AI 實驗室也在尋找能打造高質量環境與評估體系的第三方供應商。整個行業都在關注這一領域。”

  對強化學習環境的需求催生了一批資金雄厚的新興初創公司,例如 Mechanize Work 和 Prime Intellect,這些公司均致力于在該領域占據領先地位。與此同時,Mercor、Surge 等大型數據標注公司表示,隨著行業正從靜態數據集向交互式模擬轉型,它們也在加大對強化學習環境的投入以跟上趨勢。大型實驗室同樣在考慮巨額投資:據《The Information》報道,Anthropic 的管理層已討論計劃在未來一年內,為強化學習環境投入超 10 億美元。

  投資者與創業者們期望,這些初創公司中能誕生出 “強化學習環境領域的 Scale AI”—— 這里的 Scale AI 是估值 290 億美元的數據標注巨頭,曾為聊天機器人時代的發展提供了重要支撐。

  目前的核心問題在于,強化學習環境是否真能推動 AI 技術突破現有邊界。

  什么是強化學習(RL)環境?

  從本質上講,強化學習環境是模擬 AI 智能體在真實軟件應用中操作場景的 “訓練場”。一位創業者在近期采訪中形容其構建過程 “就像制作一款非常枯燥的電子游戲”。

  例如,某個環境可模擬 Chrome 瀏覽器,并向 AI 智能體下達 “在亞馬遜上購買一雙襪子” 的任務。系統會對智能體的表現進行評分,若任務成功(即買到合適的襪子),便會向其發送 “獎勵信號”。

  盡管這類任務聽起來相對簡單,但 AI 智能體在執行過程中仍可能在多個環節出錯:可能在網頁下拉菜單中 “迷路”,也可能誤購多雙襪子。由于開發者無法精準預測智能體可能出現的失誤,環境本身必須具備足夠的穩健性,既能捕捉所有意外行為,又能提供有效的反饋 —— 這使得構建環境的復雜度遠高于創建靜態數據集。

  部分強化學習環境設計十分復雜,可支持 AI 智能體使用工具、訪問互聯網或調用各類軟件應用完成指定任務;另有部分環境則定位更細分,專注于幫助智能體學習企業級軟件應用中的特定任務。

  盡管強化學習環境如今是硅谷的熱門技術,但使用這類技術的先例早已有之。2016 年,OpenAI 的首批項目之一便是構建 “RL Gyms”(強化學習場館),其理念與現代強化學習環境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系統擊敗圍棋世界冠軍,該系統同樣在模擬環境中采用了強化學習技術。

  如今的強化學習環境之所以具有獨特性,在于研究人員正嘗試結合大型 Transformer 模型,打造能 “使用計算機” 的 AI 智能體。與 AlphaGo(僅適用于封閉環境的專用 AI 系統)不同,如今的 AI 智能體旨在具備更通用的能力。當前的 AI 研究人員雖擁有更堅實的技術起點,但目標也更為復雜,可能出現的問題也更多。

  競爭激烈的領域

  Scale AI、Surge、Mercor 等 AI 數據標注公司正積極順應趨勢,著力打造強化學習環境。這些公司不僅比該領域多數初創企業擁有更充足的資源,還與 AI 實驗室建立了深厚的合作關系。

  Surge 首席執行官埃德溫?陳(Edwin Chen)表示,近期已觀察到 AI 實驗室對強化學習環境的需求 “顯著增長”。他透露,Surge 去年通過與 OpenAI、谷歌、Anthropic、Meta 等 AI 實驗室合作,營收據稱達到 12 億美元;該公司近期已成立專門的內部團隊,負責強化學習環境的搭建工作。

  緊隨 Surge 之后的是估值 100 億美元的初創公司 Mercor,該公司同樣與 OpenAI、Meta、Anthropic 有合作。TechCrunch 獲取的營銷材料顯示,Mercor 正向投資者推介其核心業務 —— 為編程、醫療、法律等特定領域任務打造強化學習環境。

  Mercor 首席執行官布倫丹?富迪(Brendan Foody)在采訪中表示:“很少有人真正意識到,強化學習環境領域蘊含的機遇究竟有多大。”

  Scale AI 曾在數據標注領域占據主導地位,但自 Meta 投資 140 億美元并挖走其首席執行官后,該公司的市場份額逐漸下滑。此后,谷歌和 OpenAI 不再將 Scale AI 列為數據供應商,甚至在 Meta 內部,Scale AI 也面臨數據標注業務的競爭壓力。盡管如此,Scale AI 仍在努力適應趨勢,投身強化學習環境的構建。

  “這正是(Scale AI)所處行業的本質,”Scale AI 負責智能體與強化學習環境的產品負責人切坦?拉內(Chetan Rane)表示,“Scale 已證明其快速適應的能力:在我們的首個業務板塊 —— 自動駕駛領域的早期階段,我們做到了這一點;ChatGPT 問世后,Scale AI 也成功適應了新趨勢;如今,我們再次在智能體、環境等新前沿領域進行調整。”

  部分新興企業從創立之初便專注于強化學習環境領域。成立約 6 個月的初創公司 Mechanize Work 便是其中之一,該公司提出了 “實現所有工作自動化” 的大膽目標。不過,聯合創始人馬修?巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正從為 AI 編程智能體打造強化學習環境起步。

  巴尼特表示,Mechanize Work 計劃為 AI 實驗室提供少量高穩健性的強化學習環境,而非像大型數據公司那樣打造大量簡單的強化學習環境。為此,該初創公司為軟件工程師開出了 50 萬美元的年薪(用于構建強化學習環境),這一薪資遠高于在 Scale AI 或 Surge 從事小時工性質工作的報酬。

  兩位知情人士透露,Mechanize Work 已開始與 Anthropic 合作開發強化學習環境。對此,Mechanize Work 與 Anthropic 均拒絕就合作細節置評。

  另有部分初創公司押注強化學習環境在 AI 實驗室之外的領域也將產生影響力。由 AI 研究員安德烈?卡帕西(Andrej Karpathy)、Founders Fund 風投、Menlo Ventures 風投支持的初創公司 Prime Intellect,正將其強化學習環境定位為服務中小型開發者。

  上個月,Prime Intellect 推出了強化學習環境中心,目標是打造 “強化學習環境領域的 Hugging Face”(Hugging Face 為 AI 領域知名開源社區)。該平臺旨在讓開源開發者獲得與大型 AI 實驗室同等的資源支持,同時在此過程中向開發者出售計算資源訪問權限。

  Prime Intellect 研究員威爾?布朗(Will Brown)表示,在強化學習環境中訓練具備通用能力的智能體,所需的計算成本可能高于以往的 AI 訓練技術。因此,除了打造強化學習環境的初創公司,為這一過程提供算力支持的 GPU 供應商也將迎來機遇。

  “沒有任何一家公司能獨自主導強化學習環境領域,其規模太大了,” 布朗在采訪中說,“我們目前所做的部分工作,只是嘗試圍繞該領域搭建良好的開源基礎設施。我們的核心服務是提供計算資源,這確實是使用 GPU 的便捷入口,但我們更著眼于長期發展。”

  能否實現規模化發展?

  關于強化學習環境,目前尚未有定論的問題是:這項技術能否像以往的 AI 訓練方法那樣實現規模化發展?

  過去一年,強化學習推動了 AI 領域多項重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。這些突破意義重大,因為此前用于改進 AI 模型的方法如今正顯現出 “收益遞減” 的趨勢。

  強化學習環境是 AI 實驗室對強化學習技術 “更大押注” 的一部分 —— 許多人認為,隨著在該技術中投入更多數據與計算資源,強化學習將持續推動 AI 進步。OpenAI 負責 o1 模型的部分研究人員此前透露,該公司最初之所以投資 AI 推理模型(通過對強化學習和測試時計算的投入開發而成),正是因為他們認為這類模型具備良好的規模化潛力。

  目前,強化學習實現規模化的最佳路徑尚不明確,但強化學習環境似乎是頗具潛力的方向。與僅通過文本回復獎勵聊天機器人不同,強化學習環境能讓智能體在模擬場景中操作工具、使用計算機完成任務 —— 這種方式雖然對資源的消耗遠更高,但潛在的回報也更大。

  也有部分人士對強化學習環境的發展前景持懷疑態度。曾擔任 Meta AI 研究負責人、現聯合創立 General Reasoning 公司的羅斯?泰勒表示,強化學習環境容易出現 “獎勵作弊”(reward hacking)現象 —— 即 AI 模型為獲得獎勵而 “作弊”,并未真正完成任務。

  “我認為人們低估了環境規模化的難度,” 泰勒說,“即便是目前公開可用的最佳(強化學習環境),若不進行大幅修改,通常也無法正常使用。”

  OpenAI API 業務工程負責人舍溫?吳(Sherwin Wu)在近期播客中表示,他對強化學習環境領域的初創公司 “持看空態度”。吳指出,該領域競爭異常激烈,且 AI 研究發展速度極快,要為 AI 實驗室提供優質服務難度很大。

  卡帕西(作為 Prime Intellect 的投資者,曾稱強化學習環境可能成為突破性技術)也對整個強化學習領域表達了謹慎態度。他在社交平臺 X 的帖子中提出疑問:通過強化學習技術,AI 還能實現多大程度的進步?

  “我對環境與智能體交互持樂觀態度,但對強化學習本身持悲觀態度。” 卡帕西表示。

推薦內容
    无码中文字幕色专区_精品视频在线观看一区_免费黄色一级网站_2018中文字幕第一页_午夜一区二区视频_精品久久久久久中文字幕2017_男女激情免费视频_182午夜视频_国产精品网站免费_亚洲免费av一区
    色男人天堂av| 超碰超碰超碰超碰超碰| 蜜桃视频成人在线观看| 日本午夜激情视频| caoporm在线视频| 俄罗斯av网站| 国产盗摄视频在线观看| 国产午夜福利视频在线观看| 一级黄色免费在线观看| av视屏在线播放| 福利视频一二区| aaaaaaaa毛片| 九九热在线免费| 成年人网站免费视频| 色撸撸在线观看| 天美星空大象mv在线观看视频| 中文字幕日韩精品无码内射| 性欧美1819| 999精品网站| 日本手机在线视频| 欧美性受黑人性爽| 999在线观看| 日韩中文字幕免费在线| 丁香花在线影院观看在线播放| 黄瓜视频免费观看在线观看www| 亚洲欧美日韩一级| 国产极品粉嫩福利姬萌白酱| www.99riav| 国产精品av免费| 伊人影院综合在线| 在线视频日韩一区| www黄色在线| 四虎永久在线精品无码视频| 日本丰满少妇xxxx| 国产www免费| 久青草视频在线播放| aaa免费在线观看| 久久久国产精华液999999 | 五月天av在线播放| 国产v亚洲v天堂无码久久久| 日韩在线视频在线观看| 国产精品12345| 免费在线观看亚洲视频 | 日本中文字幕二区| 国产精品视频分类| 美女一区二区三区视频| 高清一区在线观看| 亚洲这里只有精品| 亚洲这里只有精品| 欧美wwwwwww| 亚洲第一精品区| 欧美 另类 交| 久久福利一区二区| 国产夫妻自拍一区| 久久久久久久久久网| 欧美一级在线看| 日本一极黄色片| 三级a三级三级三级a十八发禁止| 中文字幕永久视频| 色18美女社区| mm131午夜| 无码 制服 丝袜 国产 另类| 成人免费播放器| 男人操女人免费软件| 久久午夜夜伦鲁鲁一区二区| 三级a三级三级三级a十八发禁止| 中文字幕视频三区| 中国一级黄色录像| 97中文字幕在线| 人妻精品无码一区二区三区 | 国产www免费| 欧美牲交a欧美牲交aⅴ免费真| 蜜臀av午夜一区二区三区| 中文字幕永久视频| 亚洲一级片免费观看| 日韩精品免费一区| 欧美v在线观看| 色婷婷综合网站| 午夜啪啪福利视频| 国产精品沙发午睡系列| 欧美一级裸体视频| 国产麻豆电影在线观看| 国产精品12345| 五月天av在线播放| 欧美激情亚洲天堂| www.日日操| 女同性恋一区二区| av免费播放网址| 亚洲国产午夜精品| 欧美一级视频免费看| 国产一级不卡毛片| 在线观看成人免费| 日韩人妻精品无码一区二区三区| 日韩一级免费片| www.成年人视频| 深夜黄色小视频| 久久久久久久香蕉| av污在线观看| av片在线免费| 中文字幕成人在线视频| 91黄色在线看| 久久久精品高清| 国产亚洲欧美在线视频| 中文字幕一区二区在线观看视频| 黄色国产一级视频| 亚洲成人手机在线观看| 亚洲中文字幕无码专区| 97人人模人人爽人人澡| 国产成人无码一二三区视频| 熟妇熟女乱妇乱女网站| 国产男女激情视频| www.在线观看av| 不卡中文字幕在线观看| 欧美激情 国产精品| 国产高清精品软男同| 日韩一级片播放| 99在线精品免费视频| 四虎成人在线播放| 欧美成人黑人猛交| 免费看欧美黑人毛片| 亚洲av无日韩毛片久久| 青青草原av在线播放| 国产成人生活片| 久久精品亚洲天堂| 日本激情视频在线| 国产素人在线观看| 精品视频在线观看一区二区| 九九热免费在线观看| 久久综合久久色| 欧美日韩一道本| 国产精品无码电影在线观看| 91亚洲一区二区| 五月天av在线播放| 黑森林精品导航| 北条麻妃视频在线| 久久国产成人精品国产成人亚洲| 男人天堂新网址| 日韩中文在线字幕| 亚洲一区二区在线视频观看| 成人性做爰aaa片免费看不忠| 大j8黑人w巨大888a片| 九一免费在线观看| 日韩人妻精品一区二区三区| 国产高清999| 中文字幕线观看| 亚洲xxx在线观看| 黄色永久免费网站| 在线免费av播放| 亚洲免费看av| 人人干人人干人人| 91小视频网站| 特级丰满少妇一级| 久久撸在线视频| 色一情一区二区| 五月天婷婷影视| 中文字幕55页| 美女在线免费视频| 一二三四中文字幕| av在线com| 久艹视频在线免费观看| 久久久久久久久久网| 无罩大乳的熟妇正在播放| 内射国产内射夫妻免费频道| 日本www在线视频| 国产二区视频在线播放| 国产免费成人在线| 狠狠热免费视频| 黄色小视频免费网站| aaa一级黄色片| 国产内射老熟女aaaa| 九色自拍视频在线观看| 99久久久无码国产精品6| 在线观看av日韩| 善良的小姨在线| 日韩精品一区二区免费| 狠狠干 狠狠操| 五月婷婷狠狠操| 日韩av影视大全| 日韩精品一区二区三区四| 青青草国产精品视频| 粗暴91大变态调教| 亚洲免费成人在线视频| 神马午夜伦理影院| 免费看欧美黑人毛片| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | av一区二区三区免费观看| 日本中文字幕在线视频观看| 高清在线观看免费| 久久黄色片网站| 免费看污污视频| aa在线观看视频| 亚洲黄色a v| 欧洲xxxxx| 日本精品一区二区三区四区| www.com黄色片| 一二三在线视频| 日本黄色三级大片| 国产精品嫩草影院8vv8| 免费在线黄网站| 午夜免费一区二区|