OSCHINA 社区最新新闻OSCHINA - 中文开源技术交流社区马上订阅 OSCHINA 社区最新新闻 RSS 更新: https://www.oschina.net/news/rss美团 LongCat 团队发布 Agent 评测基准“VitaBench”2025年10月20日 18:24综合新闻美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。 据介绍,VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在...查看完整文章