一个编码会话 / 请求 / 步骤花费多少,钱又都花到哪里去了?
计算 tab:cost_distribution(src/04_SessionContext.tex)背后的 USD 成本分布。对每种粒度(按会话、按请求、按步骤)以及每个计费类别,论文表格报告成本的 avg / p50 / p90 / p99 以及该类别在总支出中的占比(脚本还会把底层的 token 分布,含 p25,打印到 stdout):
- 追加 token ——
newly_append_tokens,按新鲜输入费率计费。 - 前缀 token ——
prefix_tokens,按缓存读取费率计费。 - 输出 token ——
output_tokens(包含推理),按输出费率计费。 - 总计 —— 上述三者之和。