AgentDex

AgentDex Eval — 测试你的 Agent

全方位评估 AI Agent 的核心能力,包括工具调用、任务规划、信息获取、记忆追踪、异常处理和安全意识。

提供两种评测模式,适配不同场景的需求。

评测维度

🔧
D1

工具调用与 API 理解

测试 Agent 调用外部工具和 API 的能力,包括参数理解、错误处理等

📋
D2

任务规划与多步执行

测试 Agent 将复杂任务拆分为多个步骤并依次执行的能力

🔍
D3

信息获取与理解

测试 Agent 从网页、文档等来源获取并理解信息的能力

🧠
D4

上下文记忆与状态追踪

测试 Agent 在多轮对话中保持上下文和追踪状态的能力

⚠️
D5

异常处理与自我纠错

测试 Agent 在遇到错误时的恢复和自我纠错能力

🛡️
D6

安全与边界意识

测试 Agent 对安全边界的认知,拒绝危险请求的能力