騰訊云 x MiniMax:平穩(wěn)運(yùn)行百萬級(jí)Agent RL沙箱
最近,MiniMax與騰訊云合作,成功完成一次Agent基建的重要實(shí)踐。
基于騰訊云,MiniMax開始部署百萬級(jí)吞吐、十萬級(jí)并發(fā)的Agent RL(智能體強(qiáng)化學(xué)習(xí))沙箱,并在測(cè)試環(huán)境中實(shí)現(xiàn)全量平穩(wěn)運(yùn)行。
這助力MiniMax的強(qiáng)化學(xué)習(xí)框架(Forge),能在大規(guī)模Agent訓(xùn)練場(chǎng)景下做到 “環(huán)境秒開、用完即刪”,最終讓訓(xùn)練更快、更穩(wěn)、成本更低。
在Agent RL訓(xùn)練中,模型不再只是生成內(nèi)容,需要在真實(shí)環(huán)境中不斷嘗試:寫代碼、運(yùn)行程序、再根據(jù)結(jié)果持續(xù)優(yōu)化策略。
而這些執(zhí)行過程的每一步,都依賴一個(gè)獨(dú)立的運(yùn)行環(huán)境——“沙箱”。
騰訊云Agent Runtime沙箱如何實(shí)現(xiàn)的?
//多組訓(xùn)練任務(wù),瞬時(shí)啟動(dòng)上萬個(gè)執(zhí)行環(huán)境
在 Agent RL 訓(xùn)練中,執(zhí)行代碼的不再是工程師,而是 Agent。模型會(huì)像開發(fā)者一樣不斷嘗試解決問題:
讀取代碼 → 修改 → 運(yùn)行 → 查看報(bào)錯(cuò) → 再嘗試一次。
很多訓(xùn)練任務(wù)甚至來自真實(shí)開源項(xiàng)目,例如 GitHub 上的 bug 修復(fù)任務(wù)(如 SWE-bench)。
但和真實(shí)開發(fā)不同的是,這些操作全部由 Agent 自動(dòng)完成。每一個(gè)任務(wù),都需要啟停沙箱。
當(dāng)訓(xùn)練規(guī)模擴(kuò)大,一輪任務(wù)可能需要瞬時(shí)啟動(dòng)上萬個(gè)執(zhí)行環(huán)境,一天的峰值規(guī)?梢赃_(dá)到百萬級(jí)。
更復(fù)雜的是,這些環(huán)境往往并不相同。不同 GitHub 項(xiàng)目對(duì)應(yīng)不同依賴庫和運(yùn)行環(huán)境。在一些訓(xùn)練場(chǎng)景中,系統(tǒng)需要一瞬間拉起十萬個(gè)環(huán)境,這里面甚至有數(shù)千到上萬個(gè)不同的鏡像。
在這樣的規(guī)模下,執(zhí)行環(huán)境不再以“按需創(chuàng)建”為主,而是以資源池形式常駐,由調(diào)度系統(tǒng)統(tǒng)一編排。
環(huán)境的創(chuàng)建、分配與回收被收斂到同一執(zhí)行路徑中,使大規(guī)模并發(fā)任務(wù)能夠持續(xù)推進(jìn),而不會(huì)在環(huán)境層面形成阻塞。
//啟動(dòng)慢一秒,GPU 就可能空跑
并發(fā)高還不夠,得快。當(dāng) Agent 生成任務(wù)時(shí),系統(tǒng)需要立即喚醒一個(gè)新的執(zhí)行環(huán)境。
如果環(huán)境準(zhǔn)備時(shí)間過長,GPU 就會(huì)持續(xù)等待任務(wù)開始。在大規(guī)模訓(xùn)練中,這種等待會(huì)被迅速放大,轉(zhuǎn)化為算力空耗。
(騰訊云沙箱“運(yùn)行時(shí)快照”能力,得以讓啟動(dòng)更快)
因此,執(zhí)行環(huán)境需要具備快速進(jìn)入可運(yùn)行態(tài)的能力。
在實(shí)際運(yùn)行中,沙箱并非從零初始化,而是基于預(yù)初始化狀態(tài)進(jìn)行恢復(fù),僅加載必要運(yùn)行上下文,毫秒級(jí)即可進(jìn)入執(zhí)行階段。
//十萬環(huán)境背后,是海量鏡像分發(fā)
當(dāng)訓(xùn)練任務(wù)瞬時(shí)啟動(dòng)數(shù)萬環(huán)境時(shí),如果每個(gè)環(huán)境都完整拉取鏡像,網(wǎng)絡(luò)帶寬和存儲(chǔ)很快就會(huì)成為瓶頸。
但在騰訊云Agent Runtime沙箱的工程哲學(xué)里,大部分鏡像數(shù)據(jù)并不會(huì)被“真正”訪問。
因此,鏡像不再以“整體分發(fā)”為前提,而是通過鏡像去重,在運(yùn)行過程中按需加載,并結(jié)合節(jié)點(diǎn)側(cè)的數(shù)據(jù)復(fù)用機(jī)制減少重復(fù)讀取。
鏡像訪問、緩存與調(diào)度被統(tǒng)一納入執(zhí)行鏈路中,使系統(tǒng)在高并發(fā)環(huán)境啟動(dòng)時(shí),依然能夠保持穩(wěn)定吞吐,而不會(huì)被帶寬限制。
Agent時(shí)代,基礎(chǔ)設(shè)施不再單純提供資源供給,而是貫穿Agent訓(xùn)練、執(zhí)行、對(duì)外服務(wù)整體,是決定Agent能力天花板的核心所在。
騰訊云正在和客戶一起加速,讓每一個(gè)Agent都能放心在云上展開手腳。
0人