Experiments — Performance

Summaries computed from the server’s runs.jsonl. Charts update as you run Sprint evals.

Comparisons (avg) by sprint

before vs after_blocking vs after_retrieval

Eval duration (avg ms) by kind

avg duration for extract + sprint eval endpoints

Latest run summary