SyFI TraceLab
数据助手
正在读取公开 SYFI 数据池
覆盖 Claude 和 Codex 的 357,161 个智能体步骤,可公开分享。
答案会在沙箱中运行真实 DuckDB/Python,并展示代码
真实世界中的编码智能体工作负载

SyFI TraceLab

TraceLab 提供从 Claude Code 和 Codex 会话中采集的真实编码智能体数据。
数据集覆盖多步骤智能体会话、LLM 请求、工具调用、缓存行为、延迟分布和工作负载特征,用于研究智能体 AI 系统。

数据集快照

不同用户
43
会话
4,265
智能体步骤
357,161
工具调用
432,510
输入 token 总量
54.9B
缓存读取 token
52.6B
追加输入 token
2.34B
输出 token 总量
186.9M

提供商分布

共 357,161 次模型调用中的智能体步骤数。

357K 步骤
Claude 140,33839%
Codex 216,82361%

采集时间窗口

公开数据池中最早和最新观测到的记录。

日期范围
Sep 23 2025 — Jun 4 2026

图库

SyFI TraceLab · 公开数据池
按提供商切分

对比 提供商

按提供商查看会话、请求、智能体步骤、工具使用、缓存复用、上下文增长和人类等待。

Claude Codex 即将加入 同一份公开数据,按提供商分组。
Claude 39% 的步骤
140,338
当前公开池中的智能体步骤
Codex 61% 的步骤
216,823
当前公开池中的智能体步骤
DeepSeekMoonshotGLMQwen 即将加入
计划加入更多提供商列

提供商统计

使用与 SyFI TraceLab 图表相同的分类体系分组。
会话
一段连续的工作记录,通常包含多个请求或问题。
请求
从一次用户输入到智能体最终响应的完整过程。
智能体步骤
请求内部的一次模型调用。
用户触发步骤
由用户输入启动的智能体步骤。
工具触发步骤
由工具结果启动的智能体步骤。
越高越好 越低越好 没有箭头的行是描述性总量、占比或计数字段。
指标 Claude Codex DeepSeekMoonshotGLMQwen
数据事实 会话、请求和智能体步骤覆盖范围
覆盖范围
智能体步骤 140,338 steps 216,823 steps
会话 2,676 1,589
不同用户 37 22
采集时间窗口 Oct 3 2025 — Jun 4 2026 Sep 23 2025 — Jun 4 2026
请求 21,407 20,040
工具触发步骤 120,760 (86.0%) 195,268 (90.1%)
模型
覆盖的模型数 9 14
最常用模型 Opus 4.7 (63.1%) gpt-5.5 (47.5%)
会话 上下文增长、人类等待和智能体步骤工作流形态
步骤级上下文增长
上下文总增长 235.7M tok 373.1M tok
用户触发上下文增长 avg / p50 / p90 1,499 / 703 / 3,121 tok 1,882 / 492 / 5,680 tok
工具触发上下文增长 avg / p50 / p90 1,742 / 801 / 3,879 tok 1,766 / 556 / 4,454 tok
增长 / 缩减
用户触发增长占比 98.2% 68.6%
用户触发缩减占比 1.7% 31.3%
用户触发大幅压缩占比 0.8% 0.8%
工具触发增长占比 99.8% 99.0%
工具触发缩减占比 0.2% 1.0%
工具触发大幅压缩占比 0.2% 0.6%
人类等待
人类等待总时长 15K h 18K h
人类等待 avg / p50 / p90 2400.7 / 79.5 / 998.4 s 3260.2 / 95.3 / 1446.7 s
LLM 生成 每个智能体步骤的 token 和耗时
Token 分布
输入 token 总量 28.5B tok 26.4B tok
缓存读取输入 token 27.3B tok 25.3B tok
追加输入 token 1.19B tok 1.15B tok
平均总输入 / 智能体步骤 202,840 tok 121,907 tok
平均缓存读取输入 / 智能体步骤 194,361 tok 116,623 tok
平均追加输入 / 智能体步骤 8,479 tok 5,283 tok
按步骤触发来源划分的输入
用户触发平均总输入 275,716 tok 114,510 tok
用户触发平均追加输入 36,212 tok 24,945 tok
工具触发平均总输入 191,083 tok 122,143 tok
工具触发平均追加输入 3,998 tok 3,422 tok
输出 token
输出 token 总量 96.9M tok 90.1M tok
平均输出 / 智能体步骤 690 tok 415 tok
推理 token 36.8M tok
平均推理 / 推理步骤 239
耗时
生成耗时 p50 5.7s 5.8s
生成耗时 p90 25.8s 19.9s
生成总耗时 574 h 567 h
输出解码吞吐 46.8 tok/s 33.9 tok/s
推理后解码吞吐 72.0 tok/s
由推理 token 估计的 TTFT 4.6s
工具调用 智能体步骤中的工具调用量与延迟
活动
工具调用 142,388 290,122
包含工具调用的智能体步骤 121,145 (86.3%) 198,650 (91.6%)
每请求工具调用数 6.7 14.5
耗时
工具延迟 p50 125ms 626ms
工具延迟 p90 14.5s 12.3s
可归因工具总耗时 1.3K h 413 h
前缀缓存 按智能体步骤触发来源划分的缓存复用
缓存率
总体前缀命中率 95.8% 95.7%
用户触发步骤命中率 86.9% 78.2%
工具触发步骤命中率 97.9% 97.2%
追加输入与上下文增长
用户触发追加 token 707.0M tok 464.5M tok
用户触发上下文增长 25.4M tok 32.1M tok
用户触发上下文 / 追加 3.6% 6.9%
工具触发追加 token 482.8M tok 661.2M tok
工具触发上下文增长 210.3M tok 341.1M tok
工具触发上下文 / 追加 43.6% 51.6%
所有已分类追加 token 1.19B tok 1.13B tok
所有已分类上下文增长 235.7M tok 373.1M tok
所有已分类上下文 / 追加 19.8% 33.1%
SyFI TraceLab · 提供商对比 按提供商切分
本地数据分析

分析 你的数据

拖入 Claude/Codex 会话文件或已清洗的导出文件。浏览器会在本地完成归一化、脱敏和计算,然后渲染为交互式仪表盘。

通过 Pyodide 在你的浏览器中运行。
原始数据行保留在本地;分析在 WebAssembly 沙箱中运行。逐轮原始内容不会离开页面。
拖入数据文件或已清洗的 .gz
Claude/Codex 会话、.zip、.tar.gz、.jsonl 或 .gz
还没有可拖入的文件? 打包并压缩你的 Claude / Codex 会话 →
1 把本机会话打包成一个归档

Claude Code 会话位于 ~/.claude/projects;Codex 会话位于 ~/.codex/sessions。这个命令会把你拥有的会话压缩成主目录下的 trace.tar.gz,然后把该文件拖到上方。

cd ~ && tar -czf trace.tar.gz $([ -d .claude/projects ] && echo .claude/projects) $([ -d .codex/sessions ] && echo .codex/sessions)
2 数据很大,或在远程服务器上?

可以跳过下载。把工具克隆到那台机器并在那里启动;它会检测该机器上的 ~/.claude + ~/.codex 并就地分析,不上传任何内容。打开它打印的 URL(如果是远程机器,可通过 SSH 转发端口)。

git clone https://github.com/uw-syfi/TraceLab.git && cd TraceLab && ./launch.sh

你的结果

从已加载数据本地计算得到,可交互(悬停、缩放、导出)。
会话
智能体步骤
总成本
缓存节省
相对于全部新鲜计费
总输入
缓存输入
由前缀缓存提供
未缓存输入
新鲜输入 token
总输出

提供商

你的智能体步骤和花费如何分布在不同提供商之间。

活动

每日步骤数,以及你通常在本地时间何时工作。

每日活动

数据中的每日步骤数。

工作节奏

一天中的小时 × 星期;颜色越深表示该时段智能体步骤越多。

成本

按模型拆分为缓存读取、新鲜输入和输出。

按模型统计花费

亮点

你的数据中的突出项。点击可跳转到对应会话。

会话

筛选后选择一个会话,回放其 token 时间线。

统计

数据中的平均值、分位数和比率。

分布

经典图表的交互版(悬停、缩放、导出 PNG)。

贡献到社区池

分享已脱敏、假名化的行到社区池。下面明确列出每行会包含什么,以及绝不会包含什么。

包含 — 可以分享
  • 每步模型 — 例如 claude-opus-4、gpt-5
  • Token 计数 — 输入、输出、缓存、逐步统计
  • 工具名称 — 运行了哪些工具(Bash、Read、Edit…)以及频率
  • 时间信息 — 每一步何时运行、工具耗时多久
  • 只保留大小计数 — 消息或工具输入有多大,但绝不保留文本
  • 假名化 ID — 会话 / 轮次 / 项目 / 用户使用文件内稳定的随机 ID
移除 — 永不离开你的机器
  • 你的提示词和 AI 回复 — 不采集消息文本,只保留计数
  • 工具输入 — shell 命令、文件内容、搜索查询、diff
  • 文件路径 — 工作目录、仓库 URL、会话文件
  • 你的身份信息 — 主机名、真实用户名、主目录
  • 任何路径类字段 — cwd、workdir、任何以 _path 结尾的字段

上传时会再次校验;若有敏感内容漏出会被拒绝。

SyFI TraceLab · 本地分析 不会离开你的机器
社区贡献

贡献的 数据

每次贡献都会扩展公开工作负载地图。上传行会经过校验、去重,并以假名方式记入贡献。

贡献者
0
智能体步骤
0
输入 token
0
最近贡献

提供商分布

贡献数据中的 Claude 和 Codex 智能体步骤。

1 步骤
Claude 00%
Codex 0100%

贡献节奏

贡献历史可用前的占位图。

加入贡献池

贡献一份 数据

拖入原始 Claude/Codex 会话或已清洗的 .gz。原始文件会先在本地归一化并脱敏,然后再上传。

拖入数据以贡献 原始会话或 .gz · 先本地脱敏

最近贡献

已校验上传,以假名贡献者 ID 展示。
贡献者时间智能体步骤提供商状态
还没有贡献 — 从“分析你的数据”标签页成为第一个贡献者。
SyFI TraceLab · 贡献池 假名化行