Founders Fund、Pantera 與 Franklin Templeton 加入 Sentient 的 “Arena”,對企業級 AI 智能體進行壓力測試
過去兩年裡,企業一直在加速把 AI 智能體引入真實工作流程:從客服、後台運營,到金融與合規等需要高強度決策的流程。隨著這些系統越來越多地被嵌入實際業務,一個新問題正在浮現:智能體能夠檢索信息,但當工作變得"髒"、多步驟、或高風險時,它們往往難以給出穩定、可解釋、可複現的推理過程。
今天,開源 AI 實驗室 Sentient 正式推出 Arena------一個實時、可投入生產級使用的環境,面向全球數千名 AI 開發者,用來對各種企業最難的推理問題進行壓力測試與競賽式迭代。Arena 初始階段的首批參與陣容包括 Founders Fund、Pantera,以及管理資產規模超過 1.5 萬億美元的 Franklin Templeton(富蘭克林邓普顿)------這也釋放出一個信號:機構正在對"在上線部署前,對 AI 智能體進行結構化評測"產生早期、明確的興趣。
"當企業把 AI 智能體應用到研究、運營和面向客戶的工作流時,問題已經不再是這些系統是否足夠強大......而是它們在真實工作流中是否可靠。"Franklin Templeton Digital Assets(富蘭克林邓普顿數字資產)管理合夥人 Julian Love 表示。Love 補充說,像 Arena 這樣的結構化環境,將幫助行業把"有潛力的想法"和"真正能用於生產的能力"區分開來。
Sentient 聯合創始人 Himanshu Tyagi 表示:"AI 智能體在企業內部不再只是實驗;它們正在進入會觸及客戶、資金和運營結果的關鍵流程。這種變化改變了評判標準。系統在演示裡看起來很驚艷還不夠。企業需要知道:在生產環境裡,當失敗代價很高、信任又非常脆弱時,智能體是否還能穩定地推理。企業需要可比性、可重複性,以及一種不依賴底層模型或工具棧、能夠長期跟蹤可靠性提升的方法。"
Arena 模擬了企業工作流的真實混亂:信息不完整、上下文很長、指令含糊、來源相互衝突。Arena 不只評判智能體是否給出"正確答案",而是記錄完整的推理軌跡(reasoning trace),以便工程團隊定位失敗原因,並長期驗證改進是否有效。
這為跨模型、跨技術棧的推理評估提供了一個中立、與廠商無關的基準(vendor-agnostic benchmark)。Arena 強調生產級表現而非 Demo 表現,從而形成可驗證、適用於高風險場景的智能體能力,企業也可以把這些能力遷移到自己的私有數據和內部工具上。
在第一項挑戰中,加入 Arena 的開發者將聚焦一個企業級基礎難題:文檔推理(document reasoning)。AI 智能體需要對複雜、非結構化數據進行推理與計算------這類工作是金融分析、根因調查、投資備忘錄撰寫、客戶服務等場景的底層支撐。
初始階段的其他參與方還包括 alphaXiv、Fireworks、OpenHands、OpenRouter 等;隨著 Arena 在任務、行業與模型集成上的擴展,預計還會有更多參與者加入。
近期調研也凸顯了 Arena 試圖解決的缺口:85% 的企業表示希望成為"智能體企業(agentic enterprises)",近四分之三計劃部署自治智能體,但真正擁有成熟治理體系的不到四分之一;許多企業難以把試點擴展到大規模生產部署。企業平均已經在運行約十幾個智能體,通常分散在各自孤立的場景中;不少企業認為,如果沒有更好的編排與協同能力,繼續增加智能體只會帶來複雜度上升,價值反而下降。
"在 OpenHands,我們一直很願意支持開發者使用智能體解決真實、實用的問題。"OpenHands 首席科學家兼聯合創始人 Graham Neubig 表示,"我們也很高興支持參賽者使用 OpenHands Software Agent SDK 來應對這些複雜挑戰。"
OpenRouter 聯合創始人兼 CEO Alex Atallah 表示:"Arena 正是那種能推動開源 AI 向前的計劃------它讓研究者可以在公開環境中競爭、迭代和創新。我們很期待與 Sentient 加深合作,並提供基礎設施,讓實驗更快、更容易規模化。"
Arena 將面向全球啟動,邀請數千名 AI 開發者申請加入第一期限定隊列,並從 2026 年 3 月起在舊金山舉行線下活動。
關於 Sentient Labs
Sentient Labs 是一家領先的技術研究與產品組織,致力於推動開源 AI 的發展。作為 Sentient Foundation 旗下的創新引擎,Sentient Labs 在 AI 推理、對齊與智能體協作等方向開展前沿研究。Sentient 是 ROMA 等高性能框架以及 Dobby 等開源模型的核心研發方。Sentient 的使命是讓開源 AI 從"實驗"走向"必需"。通過提供構建強大、可組合智能體系統的基礎設施,Sentient 讓開發者能夠對開源工具實現商業化,並達到企業級可用性。Sentient 致力於推動開源成為全球關鍵任務 AI 操作的默認標準。
猜你喜歡

如何在DeFi收益中平衡風險與回報?

湯姆·李的以太坊投資論點:為何那位曾準確預測上一輪行情的人如今正加倍押注Bitmine
湯姆·李正逐漸成為以太坊最具影響力的支持者之一。從Fundstrat到Bitmine,他的以太坊投資論點融合了質押收益、國庫積累以及長線網絡價值。這就是「Tom Lee 以太坊」為何成為加密貨幣領域最受關注的熱點之一。

納瓦爾親自登台:普通人與風險投資之間的歷史碰撞

a16z Crypto:9張圖表助您了解穩定幣的發展趨勢

駁楊海坡《加密貨幣終局》

吹風機能賺到 34,000 美元嗎?解讀預測市場的自反性悖論

6MV創始人:在2026年,加密投資的「標誌性轉折點」已經到來

Abraxas Capital 鑄造了 28.9 億美元的 USDT:是流動性提升,還是僅僅是更多穩定幣套利?
Abraxas Capital剛剛從 Tether 收到了28.9 億美元的新鑄造 USDT。這究竟是對加密貨幣市場的看漲流動性注入,還是穩定幣套利巨頭的日常操作?我們將分析這些數據及其對比特幣、競爭幣和去中心化金融(DeFi)可能產生的影響。

加密貨幣領域的一位風投表示,人工智慧太瘋狂了,他們非常保守

合約算法鐮刀進化史:永續合約十年,幕還未謝

今日比特幣ETF動態:21億美元資金流入是信號,表明機構對BTC需求強勁
比特幣ETF相關消息顯示,過去8個交易日累計淨流入達21億美元,創下近期最強勁的資金淨流入紀錄之一。最新比特幣ETF消息對BTC價格意味著什麼,以及8萬美元的突破關口是否即將到來。

被PayPal踢出局後,馬斯克計畫重返加密貨幣市場

麥可·塞勒:冬天過去了——他說得對嗎?5 個關鍵數據點(2026 年)
麥可·塞勒昨天在推特上發文: “冬天結束了。”這很空頭。這很大膽。這件事在加密貨幣領域引起了熱議。
但他說得對嗎?還是說這只是又一位 CEO 在自我吹噓?
讓我們來看看數據。讓我們保持中立。我們來看看冰是不是真的融化了。

WEEX Bubbles App 正式上線:一眼洞察加密市場走勢 -4.6
WEEX Bubbles 是一款獨立應用,透過直觀的氣泡可視化方式,幫助使用者快速理解複雜的加密市場行情。

Polygon聯合創始人Sandeep:在鏈橋鏈爆炸後寫道

網頁端圖表大升級:支持10+種專業K線樣式,WEEX助您多維洞察市場
為了給各位交易者提供更專業、更全面的市場分析工具,WEEX網頁端圖表已迎來重磅升級,全面支持高達14種專業K線/圖表樣式!

早報 | Aethir 承接 Axe Compute 2.6 億美元企業級合同;新火科技收購 Avenir Group 交易團隊;Polymarket 交易量被 Kalshi 反超

鮑威爾:我們有一個短暫的窗口期來應對通脹
美聯儲主席提名人鮑威爾強調不相信前瞻指引,但希望透過資產負債表和利率政策協同合作來降低通脹。 鮑威爾明確表示不會受任何政治壓力影響,堅持獨立制定貨幣政策。 近期市場動態顯示,有新的地址從幣安提取35,000 ETH並轉移至BitGo。 一名巨鯨增加40,000枚HYPE持幣量,價值約為163萬美元。 Kelp DAO攻擊者將50,700 ETH轉移至兩個新地址中。 WEEX Crypto News, 鮑威爾對抗通脹的策略 鮑威爾表示,美聯儲在現階段必須迅速行動來降低通脹。他拒絕遵循傳統的前瞻指引,而是強調資產負債表和利率政策的協同效果,以應對未來潛在的通脹率。這種方法強調實際操作的靈活性和政策獨立性,[Place Image: Screenshot of Powell’s statement].…
如何在DeFi收益中平衡風險與回報?
湯姆·李的以太坊投資論點:為何那位曾準確預測上一輪行情的人如今正加倍押注Bitmine
湯姆·李正逐漸成為以太坊最具影響力的支持者之一。從Fundstrat到Bitmine,他的以太坊投資論點融合了質押收益、國庫積累以及長線網絡價值。這就是「Tom Lee 以太坊」為何成為加密貨幣領域最受關注的熱點之一。



