[CRITICAL] Fix Provider Fallback Chain — try/except/continue #445

New Issue

perplexity · 2026-04-09T22:17:27Z

perplexity commented

2026-04-09 22:17:27 +00:00

Source

KT Bezalel Architecture Session 2026-04-08 — Immediate Priority #2

Problem

The cascade failure pattern: agent tries a new provider → provider returns error or incompatible response → instead of skipping to next provider, the agent dies or corrupts its own config.

This is what killed the fleet when evaluating MiMo V2 Pro.

Required Fix

Timeout + skip on provider error, not crash
with to next provider in the cascade
Never let a provider failure kill the agent — only degrade to the next option
Log every fallback event to request_log (see telemetry issue)

Golden State Provider Chain

Per PR #440 (Anthropic purge), the golden state is:

Kimi K2.5 (primary)
Gemini 2.5 Pro via OpenRouter (fallback)
Ollama gemma4:latest on localhost (terminal fallback)

Pseudocode

Acceptance Criteria

Provider errors caught and logged, not propagated as crashes
Timeout per provider (30s default, configurable)
Automatic cascade to next provider in chain
Every fallback event logged to request_log
Agent survives all providers failing (graceful degradation, not crash)
Config is NEVER mutated by a provider error
Tested: mock provider timeout → verify cascade to next provider
Tested: all providers fail → verify agent stays alive in degraded state

Dependencies

request_log telemetry table (for logging fallback events)
Golden state config (done — PR #440)
Must be fixed BEFORE resurrecting wizards

## Source KT Bezalel Architecture Session 2026-04-08 — Immediate Priority #2 ## Problem The cascade failure pattern: agent tries a new provider → provider returns error or incompatible response → instead of skipping to next provider, the agent dies or corrupts its own config. This is what killed the fleet when evaluating MiMo V2 Pro. ## Required Fix - **Timeout + skip** on provider error, not crash - with to next provider in the cascade - **Never let a provider failure kill the agent** — only degrade to the next option - Log every fallback event to request_log (see telemetry issue) ## Golden State Provider Chain Per PR #440 (Anthropic purge), the golden state is: 1. Kimi K2.5 (primary) 2. Gemini 2.5 Pro via OpenRouter (fallback) 3. Ollama gemma4:latest on localhost (terminal fallback) ## Pseudocode ## Acceptance Criteria - [ ] Provider errors caught and logged, not propagated as crashes - [ ] Timeout per provider (30s default, configurable) - [ ] Automatic cascade to next provider in chain - [ ] Every fallback event logged to request_log - [ ] Agent survives all providers failing (graceful degradation, not crash) - [ ] Config is NEVER mutated by a provider error - [ ] Tested: mock provider timeout → verify cascade to next provider - [ ] Tested: all providers fail → verify agent stays alive in degraded state ## Dependencies - request_log telemetry table (for logging fallback events) - Golden state config (done — PR #440) - Must be fixed BEFORE resurrecting wizards

perplexity added this to the KT-2026-04-08: Infrastructure Stabilization milestone 2026-04-09 22:17:27 +00:00

perplexity referenced this issue from a commit

2026-04-09 22:25:41 +00:00

feat(ansible): Canonical IaC playbook for fleet management

perplexity referenced this issue

2026-04-09 22:26:05 +00:00

[P2] Ansible IaC — Canonical Fleet Playbook #449

ezra was assigned by Timmy

2026-04-09 23:31:49 +00:00

Sign in to join this conversation.

Branches Tags

main

sprint/issue-516

feat/20260413-config-yaml-parse

feat/20260413-kb-python-ast

perplexity/conflict-detector

feat/multimodal-toolsuite

feat/nexus-visual-smoke-test-v2

burn/20260412-1217-dashboard

timmy/issue-435-self-healing

burn/20260412-0809-audit-fix

purge/openclaw

timmy/issue-434-ssh-trust

feat/gofai-temporal-reasoner

feat/gofai-strips-planner

feat/gofai-knowledge-base

feat/gofai-constraint-planner

feat/gofai-symbolic-reasoner

feat/sovereign-guardrails-v2

timmy/pr-self-healing-safe

master

feat/force-multiplier-dispatch

feat/sovereign-health-dashboard

feat/sovereign-guardrails-v1

perplexity/purge-anthropic

fix/ci-architecture-lint

fix/ci-validate-config

burn/cron-backup

feat/sovereignty-linter

burn/20260410-1930-secret-cleanup

burn/20260410-0712-config-validator

burn/20260410-0621-451-pr-template

perplexity/fleet-behaviour-hardening

timmy/v7.0.0-checkin

ansible-iac

burn/20260409-1247-self-healing-safe

timmy/deadman-fallback

burn/20260409-1926-linter-v2

burn/20260410-0018-451-pr-template

burn/20260409-1923-ssh-trust

timmy/pr-proof-template

burn/20260409-1240-cli-test-harness

perplexity/ci-validation-pipeline

allegro/m2-commit-or-abort-845

feat/gemini-epic-398-1775648372708

feat/gemini-epic-398-1775648300443

perplexity/pr-checklist-ci

perplexity/soul-md-disambiguation

perplexity/wire-enforcer-sovereign-store

perplexity/mempalace-architecture-doc

timmy/fleet-phase3-5

feat/bezalel-wizard-sidecar-v2

timmy/gallery-submission

perplexity/sovereign-memory-store

timmy/sovereign-orchestrator-v1

groq/issue-371

harden-soul-anti-claude

timmy/mempalace-integration

timmy/fleet-capacity-inventory

timmy/orchestrator-fix

ezra/issue-358

timmy/fleet-resources-tracker

timmy/japanese-wisdom-guards

codex/workflow-pr-review

backup/main-before-reset-20260328-000322

gemini/issue-20

gemini/issue-21

gemini/issue-22

gemini/issue-9

gemini/issue-10

gemini/issue-11

gemini/issue-12

gemini/issue-13

manus/dpo-data-pipeline

feature/dpo-training-pipeline

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Timmy_Foundation/timmy-config#445