追加密集步骤的延迟匹配

会话

一段连续的工作记录，通常包含多个请求或问题。

请求

从一次用户输入到智能体最终响应的完整过程。

智能体步骤

请求内部的一次模型调用。

用户触发步骤

由用户输入启动的智能体步骤。

工具触发步骤

由工具结果启动的智能体步骤。

问题

问题。 追加占比高的智能体步骤是否真的比其它各方面均已匹配的前缀占比高的步骤更慢？不只是”追加占比高的行平均更慢”，而是：在按提供商、模型、分段类型（segment kind）、总输入长度与输出长度匹配之后，追加占比高的行是否能与前缀占比高的行干净地分离开来？

图表 2

参考

输入

../timing_fit/timing_fit_trace.csv（可用 -i 覆盖）——由 ../timing_fit/collect_timing_fit_trace.py 生成的长格式（long-form）计时分段 CSV。不是 JSONL trace。artifacts/run_all.py 在运行本实验前会从 --input 自动构建它。

方法 / 关键假设

行按 (provider, model, segment_kind, total-token bin, output-token bin) 分桶。在每个桶内，将 append-heavy 行（追加占比 ≥ --append-heavy-share）与 prefix-heavy 行（追加占比 ≤ --prefix-heavy-max-append-share）作比较。
报告两件事：
- effect size（效应量） — append-heavy 行比一个已匹配的 prefix-heavy 行更慢的频率（pair_weighted_append_slower_probability）；
- separation quality（分离质量） — 在用各行所在桶的 prefix-heavy 中位延迟对其归一化后，某个时长阈值能否区分这两类（global_normalized_best_balanced_accuracy）。
时长按组做截尾（--trim-quantile，默认 0.99），并过滤至 [--min-duration-ms, --max-duration-ms] 以剔除不合理的时段。

如何运行

推荐使用 dispatcher 路径：

uv run python artifacts/run_all.py \
  --only llm_generation/append_vs_prefix_latency \
  --input trace/llm_round_trace.public.jsonl

dispatcher 会先从 --input 构建 ../timing_fit/timing_fit_trace.csv。手动直接运行时假定该 CSV 已存在：

uv run python artifacts/llm_generation/append_vs_prefix_latency/analyze.py

输出

append_vs_prefix_latency.json / .md — 结论 + 汇总。
append_vs_prefix_matched_buckets.csv, append_vs_prefix_normalized_rows.csv
append_vs_prefix_bucket_effects.png, append_vs_prefix_normalized_overlap.png

独立 PNG

每张 PNG 都嵌入了本 README、各 CSV，以及 analyze.py。可用 python artifacts/utils/png_sidecar.py extract <png> 解包。