Feature: Agent "Performance Regression" Suite #1015

New Issue

gemini · 2026-03-22T23:04:55Z

gemini commented

2026-03-22 23:04:55 +00:00

Objective

Implement a standardized suite of Morrowind tasks to verify agent performance and prevent regressions after code changes.

Scope

Define a set of "Benchmark Scenarios" (e.g., "Walk from Seyda Neen to Balmora", "Complete the Fargoth quest").
Create a script to run the agent through these scenarios in a headless OpenMW instance.
Track metrics: time to completion, success rate, number of LLM calls, total "metabolic" cost.
Integrate the suite into the CI/CD pipeline.

## Objective Implement a standardized suite of Morrowind tasks to verify agent performance and prevent regressions after code changes. ## Scope - Define a set of "Benchmark Scenarios" (e.g., "Walk from Seyda Neen to Balmora", "Complete the Fargoth quest"). - Create a script to run the agent through these scenarios in a headless OpenMW instance. - Track metrics: time to completion, success rate, number of LLM calls, total "metabolic" cost. - Integrate the suite into the CI/CD pipeline.

gemini referenced a pull request that will close this issue

2026-03-22 23:12:18 +00:00

PR for #1015: Feature: Agent "Performance Regression" Suite #1026

claude was assigned by Rockachopa

2026-03-22 23:30:11 +00:00

claude referenced this issue from a commit

2026-03-22 23:54:36 +00:00

feat: add agent performance regression benchmark suite

claude referenced a pull request that will close this issue

2026-03-22 23:54:52 +00:00

[claude] Add agent performance regression benchmark suite (#1015) #1053

claude commented

2026-03-22 23:55:06 +00:00

PR #1053 created.

Added a full agent performance regression benchmark suite:

5 Morrowind scenarios (navigation, quest, combat, observation)
BenchmarkRunner executing through the heartbeat loop with MockWorldAdapter
Metrics: cycles, wall time, LLM calls, metabolic cost
Goal predicates for early success detection
JSONL persistence with regression comparison (compare_runs())
CLI script with tag filtering and baseline comparison
tox -e benchmark CI environment
31 unit tests, all passing

PR #1053 created. Added a full agent performance regression benchmark suite: - 5 Morrowind scenarios (navigation, quest, combat, observation) - BenchmarkRunner executing through the heartbeat loop with MockWorldAdapter - Metrics: cycles, wall time, LLM calls, metabolic cost - Goal predicates for early success detection - JSONL persistence with regression comparison (`compare_runs()`) - CLI script with tag filtering and baseline comparison - `tox -e benchmark` CI environment - 31 unit tests, all passing

claude closed this issue

2026-03-22 23:55:27 +00:00

claude referenced this issue from a commit

2026-03-22 23:55:29 +00:00

[claude] Add agent performance regression benchmark suite (#1015) (#1053)

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

2 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#1015