TraceLab 提供从 Claude Code 和 Codex 会话中采集的真实编码智能体数据。
数据集覆盖多步骤智能体会话、LLM 请求、工具调用、缓存行为、延迟分布和工作负载特征,用于研究智能体 AI 系统。
共 357,161 次模型调用中的智能体步骤数。
公开数据池中最早和最新观测到的记录。
会话级上下文、成本、耗时、压缩和人类等待,贯穿整个智能体会话。
每个会话、请求和步骤的请求数、步骤数和工具调用数。
查看详情工具触发的智能体步骤之后的净上下文增长。
查看详情会话在接近上限时压缩并丢弃上下文的频率。
查看详情每个会话、请求和步骤的花费,以及成本去向。
查看详情人类思考、LLM 生成与工具执行在墙钟时间中的占比。
查看详情上下文如何在会话中增长。
查看详情智能体等待人类输入的时长。
查看详情按提供商划分的人类响应等待解析速度。
查看详情累积人类空闲时间集中在何处。
查看详情token 组成、输出长度、输出归因和端到端生成耗时。
按提供商划分的每步前缀、追加和输出 token 长度。
查看详情缓存前缀与新追加输入的对比。
查看详情随着缓存前缀填满,追加长度如何收缩。
查看详情短步骤按数量占优,大步骤按追加 token 总量占优。
查看详情智能体补全输出通常有多长。
查看详情先前步骤的输出在下一步中被计入的两种方式。
查看详情长响应后续是作为新追加输入返回,还是进入缓存前缀增长。
查看详情观测到的 LLM 耗时与总输入上下文长度的关系。
查看详情缓存前缀和新增追加输入的中位数与长尾长度。
查看详情扣除回放的先前输出后得到的新鲜上下文。
查看详情在同一轴上展示前缀、调整后追加和输出分布。
查看详情生成完整响应的墙钟时间。
查看详情累积模型生成时间集中在何处。
查看详情智能体如何选择工具、调用频率、调用耗时,以及调用开销。
智能体最常使用哪些工具。
查看详情快速调用的数量与总工具耗时集中位置的对比。
查看详情每次工具调用延迟的累计分布。
查看详情Codex 工具端到端时间与内部执行时间的对比。
查看详情工具调用和延迟如何在粗粒度类别间分布。
查看详情哪些工具类型贡献了最多可归因工作时间。
查看详情按提供商划分的每次工具调用延迟。
查看详情按阈值划分的工具延迟总和,按提供商区分。
查看详情缓存复用、空闲间隔驱逐、冗余预填充,以及保持活跃的上下文占比。
有多少输入来自前缀缓存。
查看详情前缀缓存命中率与前一个人类空闲间隔的关系。
查看详情工具触发等待之后的前缀缓存命中率。
查看详情预填充上下文中真正新鲜与被回放的占比。
查看详情Upper-bound savings if user-initiated steps kept their prefix cache.
查看详情随驱逐超时增长,缓存命中率与存储之间的权衡。
查看详情按追加 token 加权的前缀缓存命中率。
查看详情按提供商查看会话、请求、智能体步骤、工具使用、缓存复用、上下文增长和人类等待。
| 指标 | Claude | Codex | DeepSeekMoonshotGLMQwen |
|---|---|---|---|
| 数据事实 会话、请求和智能体步骤覆盖范围 | |||
| 覆盖范围 | |||
| 智能体步骤 | 140,338 steps | 216,823 steps | — |
| 会话 | 2,676 | 1,589 | — |
| 不同用户 | 37 | 22 | — |
| 采集时间窗口 | Oct 3 2025 — Jun 4 2026 | Sep 23 2025 — Jun 4 2026 | — |
| 请求 | 21,407 | 20,040 | — |
| 工具触发步骤 | 120,760 (86.0%) | 195,268 (90.1%) | — |
| 模型 | |||
| 覆盖的模型数 | 9 | 14 | — |
| 最常用模型 | Opus 4.7 (63.1%) | gpt-5.5 (47.5%) | — |
| 会话 上下文增长、人类等待和智能体步骤工作流形态 | |||
| 步骤级上下文增长 | |||
| 上下文总增长 | 235.7M tok | 373.1M tok | — |
| 用户触发上下文增长 avg / p50 / p90 | 1,499 / 703 / 3,121 tok | 1,882 / 492 / 5,680 tok | — |
| 工具触发上下文增长 avg / p50 / p90 | 1,742 / 801 / 3,879 tok | 1,766 / 556 / 4,454 tok | — |
| 增长 / 缩减 | |||
| 用户触发增长占比 | 98.2% | 68.6% | — |
| 用户触发缩减占比 | 1.7% | 31.3% | — |
| 用户触发大幅压缩占比 | 0.8% | 0.8% | — |
| 工具触发增长占比 | 99.8% | 99.0% | — |
| 工具触发缩减占比 | 0.2% | 1.0% | — |
| 工具触发大幅压缩占比 | 0.2% | 0.6% | — |
| 人类等待 | |||
| 人类等待总时长 | 15K h | 18K h | — |
| 人类等待 avg / p50 / p90 | 2400.7 / 79.5 / 998.4 s | 3260.2 / 95.3 / 1446.7 s | — |
| LLM 生成 每个智能体步骤的 token 和耗时 | |||
| Token 分布 | |||
| 输入 token 总量 | 28.5B tok | 26.4B tok | — |
| 缓存读取输入 token | 27.3B tok | 25.3B tok | — |
| 追加输入 token | 1.19B tok | 1.15B tok | — |
| 平均总输入 / 智能体步骤 | 202,840 tok | 121,907 tok | — |
| 平均缓存读取输入 / 智能体步骤 | 194,361 tok | 116,623 tok | — |
| 平均追加输入 / 智能体步骤 | 8,479 tok | 5,283 tok | — |
| 按步骤触发来源划分的输入 | |||
| 用户触发平均总输入 | 275,716 tok | 114,510 tok | — |
| 用户触发平均追加输入 | 36,212 tok | 24,945 tok | — |
| 工具触发平均总输入 | 191,083 tok | 122,143 tok | — |
| 工具触发平均追加输入 | 3,998 tok | 3,422 tok | — |
| 输出 token | |||
| 输出 token 总量 | 96.9M tok | 90.1M tok | — |
| 平均输出 / 智能体步骤 | 690 tok | 415 tok | — |
| 推理 token | — | 36.8M tok | — |
| 平均推理 / 推理步骤 | — | 239 | — |
| 耗时 | |||
| 生成耗时 p50↓ | 5.7s | 5.8s | — |
| 生成耗时 p90↓ | 25.8s | 19.9s | — |
| 生成总耗时 | 574 h | 567 h | — |
| 输出解码吞吐↑ | 46.8 tok/s | 33.9 tok/s | — |
| 推理后解码吞吐↑ | — | 72.0 tok/s | — |
| 由推理 token 估计的 TTFT↓ | — | 4.6s | — |
| 工具调用 智能体步骤中的工具调用量与延迟 | |||
| 活动 | |||
| 工具调用 | 142,388 | 290,122 | — |
| 包含工具调用的智能体步骤 | 121,145 (86.3%) | 198,650 (91.6%) | — |
| 每请求工具调用数 | 6.7 | 14.5 | — |
| 耗时 | |||
| 工具延迟 p50↓ | 125ms | 626ms | — |
| 工具延迟 p90↓ | 14.5s | 12.3s | — |
| 可归因工具总耗时 | 1.3K h | 413 h | — |
| 前缀缓存 按智能体步骤触发来源划分的缓存复用 | |||
| 缓存率 | |||
| 总体前缀命中率↑ | 95.8% | 95.7% | — |
| 用户触发步骤命中率↑ | 86.9% | 78.2% | — |
| 工具触发步骤命中率↑ | 97.9% | 97.2% | — |
| 追加输入与上下文增长 | |||
| 用户触发追加 token | 707.0M tok | 464.5M tok | — |
| 用户触发上下文增长 | 25.4M tok | 32.1M tok | — |
| 用户触发上下文 / 追加↑ | 3.6% | 6.9% | — |
| 工具触发追加 token | 482.8M tok | 661.2M tok | — |
| 工具触发上下文增长 | 210.3M tok | 341.1M tok | — |
| 工具触发上下文 / 追加↑ | 43.6% | 51.6% | — |
| 所有已分类追加 token | 1.19B tok | 1.13B tok | — |
| 所有已分类上下文增长 | 235.7M tok | 373.1M tok | — |
| 所有已分类上下文 / 追加↑ | 19.8% | 33.1% | — |
拖入 Claude/Codex 会话文件或已清洗的导出文件。浏览器会在本地完成归一化、脱敏和计算,然后渲染为交互式仪表盘。
Claude Code 会话位于 ~/.claude/projects;Codex 会话位于 ~/.codex/sessions。这个命令会把你拥有的会话压缩成主目录下的 trace.tar.gz,然后把该文件拖到上方。
cd ~ && tar -czf trace.tar.gz $([ -d .claude/projects ] && echo .claude/projects) $([ -d .codex/sessions ] && echo .codex/sessions) 可以跳过下载。把工具克隆到那台机器并在那里启动;它会检测该机器上的 ~/.claude + ~/.codex 并就地分析,不上传任何内容。打开它打印的 URL(如果是远程机器,可通过 SSH 转发端口)。
git clone https://github.com/uw-syfi/TraceLab.git && cd TraceLab && ./launch.sh 数据中的每日步骤数。
一天中的小时 × 星期;颜色越深表示该时段智能体步骤越多。
—
—
分享已脱敏、假名化的行到社区池。下面明确列出每行会包含什么,以及绝不会包含什么。
上传时会再次校验;若有敏感内容漏出会被拒绝。
每次贡献都会扩展公开工作负载地图。上传行会经过校验、去重,并以假名方式记入贡献。
贡献数据中的 Claude 和 Codex 智能体步骤。
贡献历史可用前的占位图。
拖入原始 Claude/Codex 会话或已清洗的 .gz。原始文件会先在本地归一化并脱敏,然后再上传。
| 贡献者 | 时间 | 智能体步骤 | 提供商 | 状态 |
|---|---|---|---|---|
| 还没有贡献 — 从“分析你的数据”标签页成为第一个贡献者。 | ||||