指标	Claude	Codex	DeepSeekMoonshotGLMQwen
数据事实会话、请求和智能体步骤覆盖范围
覆盖范围
智能体步骤	140,338 steps	216,823 steps	—
会话	2,676	1,589	—
不同用户	37	22	—
采集时间窗口	Oct 3 2025 — Jun 4 2026	Sep 23 2025 — Jun 4 2026	—
请求	21,407	20,040	—
工具触发步骤	120,760 (86.0%)	195,268 (90.1%)	—
模型
覆盖的模型数	9	14	—
最常用模型	Opus 4.7 (63.1%)	gpt-5.5 (47.5%)	—
会话上下文增长、人类等待和智能体步骤工作流形态
步骤级上下文增长
上下文总增长	235.7M tok	373.1M tok	—
用户触发上下文增长 avg / p50 / p90	1,499 / 703 / 3,121 tok	1,882 / 492 / 5,680 tok	—
工具触发上下文增长 avg / p50 / p90	1,742 / 801 / 3,879 tok	1,766 / 556 / 4,454 tok	—
增长 / 缩减
用户触发增长占比	98.2%	68.6%	—
用户触发缩减占比	1.7%	31.3%	—
用户触发大幅压缩占比	0.8%	0.8%	—
工具触发增长占比	99.8%	99.0%	—
工具触发缩减占比	0.2%	1.0%	—
工具触发大幅压缩占比	0.2%	0.6%	—
人类等待
人类等待总时长	15K h	18K h	—
人类等待 avg / p50 / p90	2400.7 / 79.5 / 998.4 s	3260.2 / 95.3 / 1446.7 s	—
LLM 生成每个智能体步骤的 token 和耗时
Token 分布
输入 token 总量	28.5B tok	26.4B tok	—
缓存读取输入 token	27.3B tok	25.3B tok	—
追加输入 token	1.19B tok	1.15B tok	—
平均总输入 / 智能体步骤	202,840 tok	121,907 tok	—
平均缓存读取输入 / 智能体步骤	194,361 tok	116,623 tok	—
平均追加输入 / 智能体步骤	8,479 tok	5,283 tok	—
按步骤触发来源划分的输入
用户触发平均总输入	275,716 tok	114,510 tok	—
用户触发平均追加输入	36,212 tok	24,945 tok	—
工具触发平均总输入	191,083 tok	122,143 tok	—
工具触发平均追加输入	3,998 tok	3,422 tok	—
输出 token
输出 token 总量	96.9M tok	90.1M tok	—
平均输出 / 智能体步骤	690 tok	415 tok	—
推理 token	—	36.8M tok	—
平均推理 / 推理步骤	—	239	—
耗时
生成耗时 p50↓	5.7s	5.8s	—
生成耗时 p90↓	25.8s	19.9s	—
生成总耗时	574 h	567 h	—
输出解码吞吐↑	46.8 tok/s	33.9 tok/s	—
推理后解码吞吐↑	—	72.0 tok/s	—
由推理 token 估计的 TTFT↓	—	4.6s	—
工具调用智能体步骤中的工具调用量与延迟
活动
工具调用	142,388	290,122	—
包含工具调用的智能体步骤	121,145 (86.3%)	198,650 (91.6%)	—
每请求工具调用数	6.7	14.5	—
耗时
工具延迟 p50↓	125ms	626ms	—
工具延迟 p90↓	14.5s	12.3s	—
可归因工具总耗时	1.3K h	413 h	—
前缀缓存按智能体步骤触发来源划分的缓存复用
缓存率
总体前缀命中率↑	95.8%	95.7%	—
用户触发步骤命中率↑	86.9%	78.2%	—
工具触发步骤命中率↑	97.9%	97.2%	—
追加输入与上下文增长
用户触发追加 token	707.0M tok	464.5M tok	—
用户触发上下文增长	25.4M tok	32.1M tok	—
用户触发上下文 / 追加↑	3.6%	6.9%	—
工具触发追加 token	482.8M tok	661.2M tok	—
工具触发上下文增长	210.3M tok	341.1M tok	—
工具触发上下文 / 追加↑	43.6%	51.6%	—
所有已分类追加 token	1.19B tok	1.13B tok	—
所有已分类上下文增长	235.7M tok	373.1M tok	—
所有已分类上下文 / 追加↑	19.8%	33.1%	—

本地数据分析

分析你的数据。

拖入 Claude/Codex 会话文件或已清洗的导出文件。浏览器会在本地完成归一化、脱敏和计算，然后渲染为交互式仪表盘。

通过 Pyodide 在你的浏览器中运行。

原始数据行保留在本地；分析在 WebAssembly 沙箱中运行。逐轮原始内容不会离开页面。

拖入数据文件或已清洗的 .gz

Claude/Codex 会话、.zip、.tar.gz、.jsonl 或 .gz

还没有可拖入的文件？打包并压缩你的 Claude / Codex 会话 →

1 把本机会话打包成一个归档

Claude Code 会话位于 ~/.claude/projects；Codex 会话位于 ~/.codex/sessions。这个命令会把你拥有的会话压缩成主目录下的 trace.tar.gz，然后把该文件拖到上方。

cd ~ && tar -czf trace.tar.gz $([ -d .claude/projects ] && echo .claude/projects) $([ -d .codex/sessions ] && echo .codex/sessions)

2 数据很大，或在远程服务器上？

可以跳过下载。把工具克隆到那台机器并在那里启动；它会检测该机器上的 ~/.claude + ~/.codex 并就地分析，不上传任何内容。打开它打印的 URL（如果是远程机器，可通过 SSH 转发端口）。

git clone https://github.com/uw-syfi/TraceLab.git && cd TraceLab && ./launch.sh

你的结果

从已加载数据本地计算得到，可交互（悬停、缩放、导出）。

会话

—

智能体步骤

—

总成本

—

缓存节省

—

相对于全部新鲜计费

总输入

—

缓存输入

—

由前缀缓存提供

未缓存输入

—

新鲜输入 token

总输出

—

提供商

你的智能体步骤和花费如何分布在不同提供商之间。

活动

每日步骤数，以及你通常在本地时间何时工作。

每日活动

数据中的每日步骤数。

工作节奏

一天中的小时 × 星期；颜色越深表示该时段智能体步骤越多。

成本

按模型拆分为缓存读取、新鲜输入和输出。

按模型统计花费

—

亮点

你的数据中的突出项。点击可跳转到对应会话。

会话

筛选后选择一个会话，回放其 token 时间线。

—

统计

数据中的平均值、分位数和比率。

分布

经典图表的交互版（悬停、缩放、导出 PNG）。

贡献到社区池

分享已脱敏、假名化的行到社区池。下面明确列出每行会包含什么，以及绝不会包含什么。

包含 — 可以分享

每步模型 — 例如 claude-opus-4、gpt-5
Token 计数 — 输入、输出、缓存、逐步统计
工具名称 — 运行了哪些工具（Bash、Read、Edit…）以及频率
时间信息 — 每一步何时运行、工具耗时多久
只保留大小计数 — 消息或工具输入有多大，但绝不保留文本
假名化 ID — 会话 / 轮次 / 项目 / 用户使用文件内稳定的随机 ID

移除 — 永不离开你的机器

你的提示词和 AI 回复 — 不采集消息文本，只保留计数
工具输入 — shell 命令、文件内容、搜索查询、diff
文件路径 — 工作目录、仓库 URL、会话文件
你的身份信息 — 主机名、真实用户名、主目录
任何路径类字段 — cwd、workdir、任何以 _path 结尾的字段

上传时会再次校验；若有敏感内容漏出会被拒绝。

贡献我的已脱敏数据

社区贡献

贡献的数据。

每次贡献都会扩展公开工作负载地图。上传行会经过校验、去重，并以假名方式记入贡献。

贡献者

0

智能体步骤

0

输入 token

0

提供商分布

贡献数据中的 Claude 和 Codex 智能体步骤。

Claude 00%

Codex 0100%

贡献节奏

贡献历史可用前的占位图。

加入贡献池

贡献一份数据。

拖入原始 Claude/Codex 会话或已清洗的 .gz。原始文件会先在本地归一化并脱敏，然后再上传。

拖入数据以贡献原始会话或 .gz · 先本地脱敏

SyFI TraceLab

数据集快照

提供商分布

采集时间窗口

图库

会话

会话内部计数

总输入增长

上下文压缩

成本分布

耗时分布

会话 token 步进

人类输入等待

人类等待次数 CDF

人类等待总时长 CDF

LLM 生成

Token 长度分布

前缀与追加 token 组成

按前缀分箱的追加

追加 token 质量分箱

输出 token 分布

输出归因

先前输出的位置

上下文与解码速度

前缀 / 追加 CDF

调整后追加散点图

Token 分布轴

生成耗时 CDF

生成总耗时 CDF

工具调用

按工具统计的调用次数

工具延迟时间质量分箱

工具延迟分布

Codex 工具开销

工具类别分布

按类型统计的工具总耗时

按提供商的工具延迟 CDF

工具总延迟 CDF

前缀缓存

缓存命中率

人类等待后的缓存命中

工具等待后的缓存命中

冗余预填充

Cost of human thinking time

驱逐权衡

缓存命中率（追加加权）

对比 提供商。

提供商统计

分析 你的数据。

你的结果

提供商

活动

每日活动

工作节奏

成本

按模型统计花费

亮点

会话

—

统计

分布

贡献到社区池

贡献的 数据。

提供商分布

贡献节奏

贡献一份 数据。

最近贡献

对比提供商。

分析你的数据。

贡献的数据。

贡献一份数据。