无码中文字幕色专区_精品视频在线观看一区_免费黄色一级网站_2018中文字幕第一页_午夜一区二区视频_精品久久久久久中文字幕2017_男女激情免费视频_182午夜视频_国产精品网站免费_亚洲免费av一区

硅谷大力押注“環境”技術,用于訓練AI智能體

焦點2025-12-01 18:41:088

  多年來,環境科技巨頭的硅谷首席執行官們一直宣揚AI智能體(AI agents)的愿景 —— 這類智能體可自主使用軟件應用為人類完成任務。但如今將消費者級 AI 智能體(無論是大力 OpenAI 的 ChatGPT Agent,還是押注用于 Perplexity 的 Comet)投入實際使用便會發現,這項技術的技術局限性仍十分明顯。要讓 AI 智能體具備更強的訓練穩健性,或許需要行業尚未完全探索出的環境一系列新技術支持。

  其中一項技術便是硅谷精心模擬 “工作空間”,讓智能體在其中接受多步驟任務訓練 —— 這種 “工作空間” 被稱為強化學習(reinforcement learning,大力簡稱 RL)環境。押注用于正如帶標簽的技術數據集推動了上一波 AI 發展浪潮,強化學習環境正逐漸成為智能體開發過程中的訓練關鍵要素。

  AI 研究人員、環境創業者及投資者透露,硅谷目前頂尖 AI 實驗室對強化學習環境的大力需求大幅增加,而有意提供此類技術的初創公司也不在少數。

  “所有大型 AI 實驗室都在內部搭建強化學習環境,” 安德森?霍洛維茨基金(Andreessen Horowitz)普通合伙人珍妮弗?李表示,“但可想而知,創建這類數據集的復雜度極高,因此 AI 實驗室也在尋找能打造高質量環境與評估體系的第三方供應商。整個行業都在關注這一領域。”

  對強化學習環境的需求催生了一批資金雄厚的新興初創公司,例如 Mechanize Work 和 Prime Intellect,這些公司均致力于在該領域占據領先地位。與此同時,Mercor、Surge 等大型數據標注公司表示,隨著行業正從靜態數據集向交互式模擬轉型,它們也在加大對強化學習環境的投入以跟上趨勢。大型實驗室同樣在考慮巨額投資:據《The Information》報道,Anthropic 的管理層已討論計劃在未來一年內,為強化學習環境投入超 10 億美元。

  投資者與創業者們期望,這些初創公司中能誕生出 “強化學習環境領域的 Scale AI”—— 這里的 Scale AI 是估值 290 億美元的數據標注巨頭,曾為聊天機器人時代的發展提供了重要支撐。

  目前的核心問題在于,強化學習環境是否真能推動 AI 技術突破現有邊界。

  什么是強化學習(RL)環境?

  從本質上講,強化學習環境是模擬 AI 智能體在真實軟件應用中操作場景的 “訓練場”。一位創業者在近期采訪中形容其構建過程 “就像制作一款非常枯燥的電子游戲”。

  例如,某個環境可模擬 Chrome 瀏覽器,并向 AI 智能體下達 “在亞馬遜上購買一雙襪子” 的任務。系統會對智能體的表現進行評分,若任務成功(即買到合適的襪子),便會向其發送 “獎勵信號”。

  盡管這類任務聽起來相對簡單,但 AI 智能體在執行過程中仍可能在多個環節出錯:可能在網頁下拉菜單中 “迷路”,也可能誤購多雙襪子。由于開發者無法精準預測智能體可能出現的失誤,環境本身必須具備足夠的穩健性,既能捕捉所有意外行為,又能提供有效的反饋 —— 這使得構建環境的復雜度遠高于創建靜態數據集。

  部分強化學習環境設計十分復雜,可支持 AI 智能體使用工具、訪問互聯網或調用各類軟件應用完成指定任務;另有部分環境則定位更細分,專注于幫助智能體學習企業級軟件應用中的特定任務。

  盡管強化學習環境如今是硅谷的熱門技術,但使用這類技術的先例早已有之。2016 年,OpenAI 的首批項目之一便是構建 “RL Gyms”(強化學習場館),其理念與現代強化學習環境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系統擊敗圍棋世界冠軍,該系統同樣在模擬環境中采用了強化學習技術。

  如今的強化學習環境之所以具有獨特性,在于研究人員正嘗試結合大型 Transformer 模型,打造能 “使用計算機” 的 AI 智能體。與 AlphaGo(僅適用于封閉環境的專用 AI 系統)不同,如今的 AI 智能體旨在具備更通用的能力。當前的 AI 研究人員雖擁有更堅實的技術起點,但目標也更為復雜,可能出現的問題也更多。

  競爭激烈的領域

  Scale AI、Surge、Mercor 等 AI 數據標注公司正積極順應趨勢,著力打造強化學習環境。這些公司不僅比該領域多數初創企業擁有更充足的資源,還與 AI 實驗室建立了深厚的合作關系。

  Surge 首席執行官埃德溫?陳(Edwin Chen)表示,近期已觀察到 AI 實驗室對強化學習環境的需求 “顯著增長”。他透露,Surge 去年通過與 OpenAI、谷歌、Anthropic、Meta 等 AI 實驗室合作,營收據稱達到 12 億美元;該公司近期已成立專門的內部團隊,負責強化學習環境的搭建工作。

  緊隨 Surge 之后的是估值 100 億美元的初創公司 Mercor,該公司同樣與 OpenAI、Meta、Anthropic 有合作。TechCrunch 獲取的營銷材料顯示,Mercor 正向投資者推介其核心業務 —— 為編程、醫療、法律等特定領域任務打造強化學習環境。

  Mercor 首席執行官布倫丹?富迪(Brendan Foody)在采訪中表示:“很少有人真正意識到,強化學習環境領域蘊含的機遇究竟有多大。”

  Scale AI 曾在數據標注領域占據主導地位,但自 Meta 投資 140 億美元并挖走其首席執行官后,該公司的市場份額逐漸下滑。此后,谷歌和 OpenAI 不再將 Scale AI 列為數據供應商,甚至在 Meta 內部,Scale AI 也面臨數據標注業務的競爭壓力。盡管如此,Scale AI 仍在努力適應趨勢,投身強化學習環境的構建。

  “這正是(Scale AI)所處行業的本質,”Scale AI 負責智能體與強化學習環境的產品負責人切坦?拉內(Chetan Rane)表示,“Scale 已證明其快速適應的能力:在我們的首個業務板塊 —— 自動駕駛領域的早期階段,我們做到了這一點;ChatGPT 問世后,Scale AI 也成功適應了新趨勢;如今,我們再次在智能體、環境等新前沿領域進行調整。”

  部分新興企業從創立之初便專注于強化學習環境領域。成立約 6 個月的初創公司 Mechanize Work 便是其中之一,該公司提出了 “實現所有工作自動化” 的大膽目標。不過,聯合創始人馬修?巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正從為 AI 編程智能體打造強化學習環境起步。

  巴尼特表示,Mechanize Work 計劃為 AI 實驗室提供少量高穩健性的強化學習環境,而非像大型數據公司那樣打造大量簡單的強化學習環境。為此,該初創公司為軟件工程師開出了 50 萬美元的年薪(用于構建強化學習環境),這一薪資遠高于在 Scale AI 或 Surge 從事小時工性質工作的報酬。

  兩位知情人士透露,Mechanize Work 已開始與 Anthropic 合作開發強化學習環境。對此,Mechanize Work 與 Anthropic 均拒絕就合作細節置評。

  另有部分初創公司押注強化學習環境在 AI 實驗室之外的領域也將產生影響力。由 AI 研究員安德烈?卡帕西(Andrej Karpathy)、Founders Fund 風投、Menlo Ventures 風投支持的初創公司 Prime Intellect,正將其強化學習環境定位為服務中小型開發者。

  上個月,Prime Intellect 推出了強化學習環境中心,目標是打造 “強化學習環境領域的 Hugging Face”(Hugging Face 為 AI 領域知名開源社區)。該平臺旨在讓開源開發者獲得與大型 AI 實驗室同等的資源支持,同時在此過程中向開發者出售計算資源訪問權限。

  Prime Intellect 研究員威爾?布朗(Will Brown)表示,在強化學習環境中訓練具備通用能力的智能體,所需的計算成本可能高于以往的 AI 訓練技術。因此,除了打造強化學習環境的初創公司,為這一過程提供算力支持的 GPU 供應商也將迎來機遇。

  “沒有任何一家公司能獨自主導強化學習環境領域,其規模太大了,” 布朗在采訪中說,“我們目前所做的部分工作,只是嘗試圍繞該領域搭建良好的開源基礎設施。我們的核心服務是提供計算資源,這確實是使用 GPU 的便捷入口,但我們更著眼于長期發展。”

  能否實現規模化發展?

  關于強化學習環境,目前尚未有定論的問題是:這項技術能否像以往的 AI 訓練方法那樣實現規模化發展?

  過去一年,強化學習推動了 AI 領域多項重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。這些突破意義重大,因為此前用于改進 AI 模型的方法如今正顯現出 “收益遞減” 的趨勢。

  強化學習環境是 AI 實驗室對強化學習技術 “更大押注” 的一部分 —— 許多人認為,隨著在該技術中投入更多數據與計算資源,強化學習將持續推動 AI 進步。OpenAI 負責 o1 模型的部分研究人員此前透露,該公司最初之所以投資 AI 推理模型(通過對強化學習和測試時計算的投入開發而成),正是因為他們認為這類模型具備良好的規模化潛力。

  目前,強化學習實現規模化的最佳路徑尚不明確,但強化學習環境似乎是頗具潛力的方向。與僅通過文本回復獎勵聊天機器人不同,強化學習環境能讓智能體在模擬場景中操作工具、使用計算機完成任務 —— 這種方式雖然對資源的消耗遠更高,但潛在的回報也更大。

  也有部分人士對強化學習環境的發展前景持懷疑態度。曾擔任 Meta AI 研究負責人、現聯合創立 General Reasoning 公司的羅斯?泰勒表示,強化學習環境容易出現 “獎勵作弊”(reward hacking)現象 —— 即 AI 模型為獲得獎勵而 “作弊”,并未真正完成任務。

  “我認為人們低估了環境規模化的難度,” 泰勒說,“即便是目前公開可用的最佳(強化學習環境),若不進行大幅修改,通常也無法正常使用。”

  OpenAI API 業務工程負責人舍溫?吳(Sherwin Wu)在近期播客中表示,他對強化學習環境領域的初創公司 “持看空態度”。吳指出,該領域競爭異常激烈,且 AI 研究發展速度極快,要為 AI 實驗室提供優質服務難度很大。

  卡帕西(作為 Prime Intellect 的投資者,曾稱強化學習環境可能成為突破性技術)也對整個強化學習領域表達了謹慎態度。他在社交平臺 X 的帖子中提出疑問:通過強化學習技術,AI 還能實現多大程度的進步?

  “我對環境與智能體交互持樂觀態度,但對強化學習本身持悲觀態度。” 卡帕西表示。

本文地址:http://www.czbtz.com/news/83d12199795.html
版權聲明

本文僅代表作者觀點,不代表本站立場。
本文系作者授權發表,未經許可,不得轉載。

全站熱門

@北京市民朋友,寒衣節將至,文明祭掃更顯溫情

歡喜少年:從強逼宋倩開始!

共建清朗空間!2025江西網絡文明大會聚力出發

爆20億彩票巨獎誕生 官方并未公布購票地點

高市早苗涉臺錯誤言論引廣泛批評和擔憂

國運登頂:我從未來拿科技

歡喜少年:從強逼宋倩開始!

三國赤壁古戰場杯圍甲聯賽戰罷七輪 成都隊登上榜首

友情鏈接

无码中文字幕色专区_精品视频在线观看一区_免费黄色一级网站_2018中文字幕第一页_午夜一区二区视频_精品久久久久久中文字幕2017_男女激情免费视频_182午夜视频_国产精品网站免费_亚洲免费av一区
91香蕉视频网址| 欧美国产日韩在线播放| 日韩av一二三四| 免费看av软件| 成人免费视频久久| 日韩av在线播放不卡| 亚洲天堂伊人网| 情侣黄网站免费看| 日韩精品一区二区三区四| 午夜免费看毛片| 久热免费在线观看| 国产成a人亚洲精v品在线观看| 91高清国产视频| 东京热加勒比无码少妇| 成人av在线播放观看| 黄色一级片免费播放| 男女爽爽爽视频| 37pao成人国产永久免费视频| 久久久国内精品| 亚洲理论中文字幕| 浓精h攵女乱爱av| 99精品在线免费视频| 一卡二卡三卡视频| 韩国无码av片在线观看网站| 成年人网站av| 超碰在线播放91| 国产自偷自偷免费一区 | www.av毛片| 欧美一级特黄aaaaaa在线看片| 亚洲最大综合网| 老头吃奶性行交视频| 日韩少妇内射免费播放18禁裸乳| 国产精品视频网站在线观看 | 蜜臀av无码一区二区三区| 中文字幕免费高| 亚洲综合伊人久久| 亚洲一二三av| 天天干天天色天天干| xxww在线观看| 天天操天天干天天做| 欧美日韩一区二区三区69堂| 噼里啪啦国语在线观看免费版高清版| 久久免费视频3| 无码精品a∨在线观看中文| 99在线免费视频观看| 成人免费a级片| 欧美人成在线观看| 蜜臀av色欲a片无码精品一区| 成年人网站国产| 和岳每晚弄的高潮嗷嗷叫视频| 国产一二三在线视频| 男人插女人视频在线观看| 久久国产精品视频在线观看| 久久精品视频16| 国产日产欧美视频| 北条麻妃在线视频| 亚洲欧美日本一区二区三区| av噜噜在线观看| 成人免费看片视频在线观看| 天堂а√在线中文在线| 99在线观看视频免费| www.爱色av.com| 少妇黄色一级片| 性欧美在线视频| 亚洲av综合色区| koreanbj精品视频一区| 可以免费观看av毛片| 久久国产这里只有精品| 日本高清免费在线视频| 99久久99久久精品| 国产亚洲精品网站| 欧美日韩中文不卡| 69精品丰满人妻无码视频a片| 日韩欧美国产综合在线| 可以在线看的黄色网址| 亚洲黄色片免费| 欧美又粗又长又爽做受| 成人在线免费播放视频| 久久久久久久久久久久久久久国产 | aⅴ在线免费观看| 亚洲一区日韩精品| 国内外成人激情免费视频| 欧美视频在线观看网站| 三级a在线观看| 亚洲小视频在线播放| 日本韩国欧美在线观看| 欧美wwwwwww| 蜜臀精品一区二区| 麻豆三级在线观看| 97在线免费视频观看| 少妇高清精品毛片在线视频 | 欧美黄网站在线观看| 中文字幕22页| av在线观看地址| 999在线观看| 欧美亚洲日本一区二区三区| 天天干天天综合| 国产高清www| 向日葵污视频在线观看| 欧美日韩福利在线| 亚洲第一色av| 久热免费在线观看| japanese在线播放| 日韩一级理论片| 国产真人做爰毛片视频直播| 性生活免费在线观看| 精品久久久久久久久久中文字幕| 午夜视频在线观| 日本精品一区二区三区四区| www.-级毛片线天内射视视| 97xxxxx| 狠狠精品干练久久久无码中文字幕 | 黄色成人免费看| 久艹在线免费观看| 手机av在线网| 日本在线视频www| av一区二区三区免费观看| 在线看的黄色网址| 日韩欧美国产免费| 日韩精品一区二区在线视频| 国产无色aaa| 欧美一级黄色影院| av在线播放亚洲| 福利网在线观看| 成年网站在线播放| 波多野结衣家庭教师在线| 97超碰在线视| 精品一区二区成人免费视频| 国产一级特黄a大片免费| 免费一级特黄毛片| 久久天天东北熟女毛茸茸| 天堂中文av在线| 国产视频一区二区视频| 久久精品视频16| 欧美国产日韩激情| 少妇一晚三次一区二区三区| 国产又粗又猛大又黄又爽| 夜夜夜夜夜夜操| 久久久精品麻豆| 国产无套内射久久久国产| www.99热这里只有精品| 亚洲精品久久久久久久蜜桃臀| 国产一二三四区在线观看| 国产精品久久久久久久av福利| 亚洲综合欧美在线| 日韩欧美国产片| 天天干天天操天天做| 三上悠亚在线一区二区| xxxx一级片| www欧美激情| 午夜精品中文字幕| 国产一区二区在线观看免费视频| 在线免费观看av的网站| 一区二区三区入口| 日韩精品视频一二三| 国产三级生活片| 91亚洲一区二区| 手机成人av在线| 六月婷婷激情网| 无码日本精品xxxxxxxxx| 国产真实老熟女无套内射| 免费视频爱爱太爽了| 九九热只有这里有精品| www.99热这里只有精品| 国产男女在线观看| 日本老熟妇毛茸茸| 性猛交ⅹ×××乱大交| 手机免费看av网站| 潘金莲一级淫片aaaaa免费看| 国产91porn| 青青青免费在线| 97xxxxx| 亚洲天堂国产视频| 可以免费看的黄色网址| 免费在线看黄色片| 久久美女福利视频| mm131国产精品| 亚洲国产精品影视| 欧美人成在线观看| 日本一极黄色片| 亚洲第一天堂久久| 久久亚洲a v| 激情六月丁香婷婷| 久久久久久综合网| av在线免费观看国产| 狠狠97人人婷婷五月| 黄色手机在线视频| 99中文字幕在线观看| 日本一区二区黄色| 成人综合久久网| 免费在线看黄色片| 成年人视频在线免费| 北条麻妃亚洲一区| 18禁免费观看网站| 国产原创精品在线| 国产黄色激情视频| wwww.国产| 800av在线免费观看| www.xxx亚洲| 伊人再见免费在线观看高清版 |