[Autoresearch H2] Define Timmy-Task Benchmark Suite (5-10 Initial Tasks) #909

New Issue

perplexity · 2026-03-22T13:06:05Z

perplexity commented

2026-03-22 13:06:05 +00:00

Parent

Part of #904 (Autoresearch Integration Proposal v2) — Action Item #8

Goal

Create a standardized benchmark suite of 5-10 real Timmy tasks with scoring functions. This gives the meta-autoresearch loop (H2) something beyond training loss to optimize against.

Proposed Task Categories

Category	Example Task	Scoring Function
Code generation	Generate a FastAPI endpoint from spec	Passes pytest + matches OpenAPI schema
Memory retrieval	Recall a fact from 50 conversations ago	Exact match or semantic similarity > 0.9
Tool use	Search Drive, fetch doc, summarize	Task completion + latency under threshold
Multi-step reasoning	Debug a failing test across 3 files	Correct root cause identification
Creative writing	Draft comic dialogue in Timmy voice	Style consistency score (LLM-as-judge)
Morrowind reasoning	Plan optimal quest route in Balmora	Valid path + NPC/faction awareness

Implementation

Create tests/benchmarks/ directory
Each benchmark is a YAML/JSON config specifying:
- Task description (natural language prompt)
- Input fixtures (files, context, prior conversations)
- Expected output or scoring function
- Time budget
Runner: python -m timmy.cli benchmark executes all tasks, reports scores
Results logged to Vault memory for tracking over time

Key Insight (from Karpathy)

"Any metric you care about that is efficient to evaluate can be autoresearched."

The benchmark suite makes Timmy's capabilities measurable, and therefore optimizable.

Cross-references

#873 (Three-Tier Memory — retrieval accuracy becomes a metric)
#882 (Model Tiering Router — cascade config becomes an experiment parameter)
#874 (Highlight Detection — detection quality becomes a benchmark task)
#883 (UESP Knowledge Base — RAG retrieval accuracy benchmarked)

Owner

Engineering + rockachopa (task selection)

## Parent Part of #904 (Autoresearch Integration Proposal v2) — Action Item #8 ## Goal Create a standardized benchmark suite of 5-10 real Timmy tasks with scoring functions. This gives the meta-autoresearch loop (H2) something beyond training loss to optimize against. ## Proposed Task Categories | Category | Example Task | Scoring Function | |---|---|---| | Code generation | Generate a FastAPI endpoint from spec | Passes pytest + matches OpenAPI schema | | Memory retrieval | Recall a fact from 50 conversations ago | Exact match or semantic similarity > 0.9 | | Tool use | Search Drive, fetch doc, summarize | Task completion + latency under threshold | | Multi-step reasoning | Debug a failing test across 3 files | Correct root cause identification | | Creative writing | Draft comic dialogue in Timmy voice | Style consistency score (LLM-as-judge) | | Morrowind reasoning | Plan optimal quest route in Balmora | Valid path + NPC/faction awareness | ## Implementation 1. Create `tests/benchmarks/` directory 2. Each benchmark is a YAML/JSON config specifying: - Task description (natural language prompt) - Input fixtures (files, context, prior conversations) - Expected output or scoring function - Time budget 3. Runner: `python -m timmy.cli benchmark` executes all tasks, reports scores 4. Results logged to Vault memory for tracking over time ## Key Insight (from Karpathy) > "Any metric you care about that is efficient to evaluate can be autoresearched." The benchmark suite makes Timmy's capabilities measurable, and therefore optimizable. ## Cross-references - #873 (Three-Tier Memory — retrieval accuracy becomes a metric) - #882 (Model Tiering Router — cascade config becomes an experiment parameter) - #874 (Highlight Detection — detection quality becomes a benchmark task) - #883 (UESP Knowledge Base — RAG retrieval accuracy benchmarked) ## Owner Engineering + rockachopa (task selection)

perplexity referenced this issue

2026-03-22 13:06:06 +00:00

[Study] Autoresearch Integration Proposal v2 — Karpathy's Self-Improvement Loop for Timmy Time #904

claude added the harness morrowind p1-important labels 2026-03-23 13:53:52 +00:00

Timmy self-assigned this 2026-03-23 15:26:37 +00:00

perplexity closed this issue

2026-03-23 16:47:56 +00:00

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#909