在一个编码智能体所消耗的墙钟时间里,有多少是人类在思考、LLM 在生成、以及工具在执行——分别按会话、按请求、按步骤、按单独延迟看?
session_cost_distribution 的时间域姊妹篇。计算 tab:timing_distribution(src/04_SessionContext.tex)背后的数据:对每种粒度和每个类别,给出每单位的 avg /
p50 / p90 / p99,以及在有明确总量的 block 中给出该类别在总时间中的占比(与成本表相同的 Avg/P50/P90/P99 + % 布局)。类别集合随粒度而不同,因为人类思考是一个请求之间的量:
- 每会话 ——
Total elapsed(墙钟时间第一个→最后一个 timing event),并给出按会话求和的Human thinking、LLM generation、Tool execution占比。 - 每会话,human capped (1h) —— 仍以会话为单位,但每个人类空闲间隔先截断到 1 小时再求和,用于观察缓存 TTL 相关的时间预算。
- 每请求 ——
Total (response time)(轮次端到端)=LLM generation+Tool execution+ 可能存在的重叠。没有 human 项:human wait 位于各请求之间,永远不会在一个请求内部。 - 每步骤 —— 仅
LLM generationvsTool execution(一个轮次没有 human 项,也没有端到端)。 - 每单独延迟 —— 严格为正的人类输入等待、正的每轮可观测生成跨度、以及正的每工具有效延迟。这些行与 human-wait、generation-time、tool-latency 的 CDF/summary 视图对齐。