神经日报 2月27日消息,据CoinTELEgrapH报道,开源AI实验室Sentient宣布推出ARena,这是一个用于评估AI代理在企业级工作流程中表现的生产级测试环境。PanTERA CapitaL和Franklin Templeton的数字资产部门已加入ARena的首批测试队列。
Sentient表示,Arena并非静态模型测试,而是通过模拟包含长文档、不完整信息和冲突来源的企业条件,对AI代理进行标准化任务测试。平台会跟踪幻觉、证据缺失、引用错误和推理漏洞等失败类别,帮助开发者诊断问题。Arena计划通过公开排行榜发布对比性能指标,并发布总结常见失败模式和修复方案的测试报告。