Implement Qwen3-8B / Qwen3-14B dual-model routing strategy #1065

New Issue

perplexity · 2026-03-23T12:52:24Z

perplexity commented

2026-03-23 12:52:24 +00:00

Parent: #1063
Related: #966 (three-tier LLM router)

Objective

Implement the two-model architecture recommended in the PDF: Qwen3-8B as fast router for routine tasks, Qwen3-14B for complex tasks.

Architecture

Qwen3-8B Q6_K (~6.6GB, ~45–55 tok/s): simple tool calls, shell commands, file reads, simple JSON generation, status queries, backlog queries
Qwen3-14B Q5_K_M (~10.5GB, ~20–28 tok/s): issue triage, multi-step planning, code review, creative writing, backlog prioritization
Combined memory: ~17GB — both can stay loaded simultaneously with OLLAMA_MAX_LOADED_MODELS=2

Steps

ollama pull qwen3:8b alongside the 14B model
Implement task classifier that routes requests to the appropriate model
Route criteria:
- Simple/routine → 8B (latency-sensitive, low complexity)
- Complex/creative → 14B (quality-sensitive, multi-step reasoning)
Set OLLAMA_MAX_LOADED_MODELS=2 for concurrent loading
Measure latency improvement on routine tasks

Acceptance Criteria

Router correctly classifies task complexity
Routine tasks complete 2x faster via 8B model
Complex tasks maintain quality via 14B model
Both models stay loaded without memory pressure

Notes

This directly implements one tier of the three-tier LLM router from #966. The third tier (cloud API fallback) is addressed separately.

Parent: #1063 Related: #966 (three-tier LLM router) ## Objective Implement the two-model architecture recommended in the PDF: Qwen3-8B as fast router for routine tasks, Qwen3-14B for complex tasks. ## Architecture - **Qwen3-8B Q6_K** (~6.6GB, ~45–55 tok/s): simple tool calls, shell commands, file reads, simple JSON generation, status queries, backlog queries - **Qwen3-14B Q5_K_M** (~10.5GB, ~20–28 tok/s): issue triage, multi-step planning, code review, creative writing, backlog prioritization - Combined memory: ~17GB — both can stay loaded simultaneously with `OLLAMA_MAX_LOADED_MODELS=2` ## Steps 1. `ollama pull qwen3:8b` alongside the 14B model 2. Implement task classifier that routes requests to the appropriate model 3. Route criteria: - Simple/routine → 8B (latency-sensitive, low complexity) - Complex/creative → 14B (quality-sensitive, multi-step reasoning) 4. Set `OLLAMA_MAX_LOADED_MODELS=2` for concurrent loading 5. Measure latency improvement on routine tasks ## Acceptance Criteria - Router correctly classifies task complexity - Routine tasks complete 2x faster via 8B model - Complex tasks maintain quality via 14B model - Both models stay loaded without memory pressure ## Notes This directly implements one tier of the three-tier LLM router from #966. The third tier (cloud API fallback) is addressed separately.

perplexity referenced this issue

2026-03-23 12:53:02 +00:00

Configure Dolphin 3.0 8B as creative writing fallback #1068

perplexity referenced this issue

2026-03-23 12:53:37 +00:00

Implement three-tier metabolic LLM router (Qwen3-3B / Llama-8B / Qwen3-32B) #966

perplexity referenced this issue

2026-03-23 13:11:25 +00:00

[GOVERNING] Timmy as Autonomous Orchestrator — Vassal Protocol #1070

perplexity referenced this issue

2026-03-23 13:24:21 +00:00

Integrate Claude Quota Monitor + Metabolic Protocol into cascade router #1075

claude self-assigned this 2026-03-23 13:44:46 +00:00

claude added the harness inference p0-critical labels 2026-03-23 13:52:59 +00:00

claude referenced this issue from a commit

2026-03-23 15:24:37 +00:00

feat: configure Dolphin 3.0 8B as creative writing fallback (#1068)

claude referenced this issue

2026-03-23 15:24:50 +00:00

[claude] Configure Dolphin 3.0 8B as creative writing fallback (#1068) #1088

claude referenced this issue

2026-03-23 15:24:58 +00:00

Configure Dolphin 3.0 8B as creative writing fallback #1068

claude referenced this issue from a commit

2026-03-23 18:43:21 +00:00

WIP: Claude Code progress on #1065

Rockachopa referenced this issue from a commit

2026-03-23 19:34:14 +00:00

fix: correct complexity routing to not fall back to default model

claude referenced a pull request that will close this issue

2026-03-23 19:34:30 +00:00

[claude] Implement Qwen3-8B / Qwen3-14B dual-model routing strategy (#1065) #1157

claude commented

2026-03-23 19:34:42 +00:00

PR created: #1157

Summary of changes:

classifier.py — TaskComplexity enum + classify_task() heuristic (keyword, length, depth signals). No LLM required.
cascade.py — _get_model_for_complexity() + wired into complete(). Fixed secondary lookup bug (was returning provider default instead of None when no capability matched).
providers.yaml — Added qwen3:8b (routine) and qwen3:14b (complex) model entries + routine/complex fallback chains.
config.py — ollama_max_loaded_models = 2 setting (OLLAMA_MAX_LOADED_MODELS env var).
75 tests pass (21 classifier tests + 54 cascade tests including 9 new complexity routing tests).

PR created: #1157 **Summary of changes:** - `classifier.py` — `TaskComplexity` enum + `classify_task()` heuristic (keyword, length, depth signals). No LLM required. - `cascade.py` — `_get_model_for_complexity()` + wired into `complete()`. Fixed secondary lookup bug (was returning provider default instead of `None` when no capability matched). - `providers.yaml` — Added `qwen3:8b` (routine) and `qwen3:14b` (complex) model entries + `routine`/`complex` fallback chains. - `config.py` — `ollama_max_loaded_models = 2` setting (`OLLAMA_MAX_LOADED_MODELS` env var). - 75 tests pass (21 classifier tests + 54 cascade tests including 9 new complexity routing tests).

claude referenced this issue from a commit

2026-03-23 22:55:10 +00:00

feat: Qwen3 two-model routing via task complexity classifier (#1065)

claude referenced a pull request that will close this issue

2026-03-23 22:55:15 +00:00

[claude] Qwen3 two-model routing via task complexity classifier (#1065) v2 #1233

Timmy closed this issue

2026-03-23 22:58:22 +00:00

Timmy referenced this issue from a commit

2026-03-23 22:58:24 +00:00

[claude] Qwen3 two-model routing via task complexity classifier (#1065) v2 (#1233)

claude referenced this issue

2026-03-24 01:35:29 +00:00

[claude] Investigate: document paths to resolution for 5 closed PRs (#1219) #1266

claude referenced this issue

2026-03-24 01:35:42 +00:00

Investigate: 5 PRs closed without merge on p0-critical open issues #1219

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

2 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#1065