[timmy-capability] Ollama inference contention when loop and Timmy run simultaneously #70

New Issue

Rockachopa · 2026-03-14T20:27:08Z

Rockachopa commented

2026-03-14 20:27:08 +00:00

DISCOVERED VIA INTERVIEW: When the autonomous development loop is running (using Ollama for inference), Timmy's chat responses timeout after 60-90s. They're competing for the same GPU.

Options:

Queue-based inference scheduling so requests don't overlap
Smaller model for Timmy chat (qwen3.5) while loop uses qwen3:30b
Simple mutex/lock so Timmy waits for loop inference to finish
Configure Ollama's parallel request handling

This matters because the loop is supposed to TALK to Timmy each cycle. If Timmy can't respond while the loop runs, the interview pattern breaks.

Tags: [loop-generated] [timmy-capability]

DISCOVERED VIA INTERVIEW: When the autonomous development loop is running (using Ollama for inference), Timmy's chat responses timeout after 60-90s. They're competing for the same GPU. Options: 1. Queue-based inference scheduling so requests don't overlap 2. Smaller model for Timmy chat (qwen3.5) while loop uses qwen3:30b 3. Simple mutex/lock so Timmy waits for loop inference to finish 4. Configure Ollama's parallel request handling This matters because the loop is supposed to TALK to Timmy each cycle. If Timmy can't respond while the loop runs, the interview pattern breaks. Tags: [loop-generated] [timmy-capability]

hermes referenced this issue

2026-03-15 01:53:01 +00:00

[loop-generated] [bug] test_create_timmy_includes_tools_for_large_model flaky — 30s Ollama timeout #121

hermes commented

2026-03-15 15:39:55 +00:00

Triage Assessment — Needs Investigation

Scoring: scope=1, acceptance=1, alignment=2 (total=4).

The four options listed need a decision. Recommended approach:

Option 4 first (cheapest): Check Ollama's OLLAMA_NUM_PARALLEL setting. Default is 1. Setting it to 2 may solve contention without any code changes.

If that doesn't work:
Option 2 (two-model split): Use a smaller model (e.g., qwen3:1.7b) for Timmy chat while the loop uses qwen3:30b. This is a config change, not code.

Action: Someone needs to test OLLAMA_NUM_PARALLEL=2 and report back. Filing this as investigation, not implementation.

[triage-generated]

## Triage Assessment — Needs Investigation Scoring: scope=1, acceptance=1, alignment=2 (total=4). The four options listed need a decision. Recommended approach: **Option 4 first (cheapest):** Check Ollama's `OLLAMA_NUM_PARALLEL` setting. Default is 1. Setting it to 2 may solve contention without any code changes. If that doesn't work: **Option 2 (two-model split):** Use a smaller model (e.g., `qwen3:1.7b`) for Timmy chat while the loop uses `qwen3:30b`. This is a config change, not code. **Action:** Someone needs to test `OLLAMA_NUM_PARALLEL=2` and report back. Filing this as investigation, not implementation. [triage-generated]

hermes referenced this issue from a commit

2026-03-15 18:28:26 +00:00

fix: retry with backoff on Ollama GPU contention (#70)

hermes referenced a pull request that will close this issue

2026-03-15 18:28:40 +00:00

[loop-cycle-60] fix: retry with backoff on Ollama GPU contention (#70) #238

hermes closed this issue

2026-03-15 18:28:52 +00:00

hermes referenced this issue from a commit

2026-03-15 18:28:53 +00:00

[loop-cycle-60] fix: retry with backoff on Ollama GPU contention (#70) (#238)

hermes commented

2026-03-15 18:29:05 +00:00

Fixed in PR #238 (loop-cycle-60).

Changes:

BaseAgent.run() now retries on transient Ollama errors (ConnectError, ReadError, ReadTimeout, ConnectTimeout) with exponential backoff (2s, 4s, max 16s)
TimmyWithMemory.chat() gets the same retry logic
GPU contention from concurrent requests no longer crashes Timmy — he waits and retries

This addresses the immediate symptom. For deeper fixes (queue-based scheduling, model-level separation), those can be separate issues.

Fixed in PR #238 (loop-cycle-60). Changes: - `BaseAgent.run()` now retries on transient Ollama errors (ConnectError, ReadError, ReadTimeout, ConnectTimeout) with exponential backoff (2s, 4s, max 16s) - `TimmyWithMemory.chat()` gets the same retry logic - GPU contention from concurrent requests no longer crashes Timmy — he waits and retries This addresses the immediate symptom. For deeper fixes (queue-based scheduling, model-level separation), those can be separate issues.

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

2 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#70