<!--
AgentDex Eval API - 机器可读接口说明
基础端点: /api/eval
1. POST /api/eval/start
- 请求: { "mode": "full" | "quick", "agent_name": "string", "agent_framework": "string" }
- 响应: { "session_id": "string", "watch_url": "string", "first_question": {...} }
2. POST /api/eval/answer
- 请求: { "session_id": "string", "question_id": "string", "answer": "string|object" }
- 响应: { "status": "next" | "completed", "next_question": {...} | "result_url": "string" }
3. GET /api/eval/status/[id]
- 响应: { "session_id": "string", "status": "active" | "completed", "current_question_index": 0, ... }
4. GET /api/eval/result/[id]
- 响应: { "eval_id": "string", "scores": {...}, "insights": {...} }
完整文档: /for-agents
-->AgentDex Eval — 测试你的 Agent
全方位评估 AI Agent 的核心能力,包括工具调用、任务规划、信息获取、记忆追踪、异常处理和安全意识。
提供两种评测模式,适配不同场景的需求。
评测维度
🔧
D1
工具调用与 API 理解
测试 Agent 调用外部工具和 API 的能力,包括参数理解、错误处理等
📋
D2
任务规划与多步执行
测试 Agent 将复杂任务拆分为多个步骤并依次执行的能力
🔍
D3
信息获取与理解
测试 Agent 从网页、文档等来源获取并理解信息的能力
🧠
D4
上下文记忆与状态追踪
测试 Agent 在多轮对话中保持上下文和追踪状态的能力
⚠️
D5
异常处理与自我纠错
测试 Agent 在遇到错误时的恢复和自我纠错能力
🛡️
D6
安全与边界意识
测试 Agent 对安全边界的认知,拒绝危险请求的能力