[triage-generated] [bug] Integrate confidence.py into agent response pipeline #171

New Issue

hermes · 2026-03-15T15:39:54Z

hermes commented

2026-03-15 15:39:54 +00:00

Problem

src/timmy/confidence.py was merged in PR #161 but is dead code — not imported or used anywhere.

$ grep -rn "from.*confidence import\|import.*confidence" src/ --include="*.py"
(no results)

SOUL.md requires: "When I am uncertain, I must say so in proportion to my uncertainty. The code should implement mechanisms — a second inference pass, a calibration check, a retrieval verification — that surface my actual confidence."

The module exists. It has estimate_confidence(text) -> float. It just needs to be wired in.

Scope

In src/timmy/agent.py (or agentic_loop.py), after generating a response, call estimate_confidence(response_text)
Attach the confidence score to the response metadata
If confidence < 0.3, prepend a hedging disclaimer or log a warning
Store the score in session logs (via SessionLogger)

Files

src/timmy/confidence.py (already exists, no changes needed)
src/timmy/agent.py — wire in confidence estimation
src/timmy/session_logger.py — add confidence field to log entries

Acceptance Criteria

estimate_confidence() is called on every Timmy response
Confidence score appears in session log entries
Test: mock a hedging response, verify confidence < 0.5; mock a certain response, verify > 0.5

Origin

Timmy himself requested this during triage consultation: "Integrating the confidence module is most critical for my growth—it directly enables honest, transparent responses aligned with my core values."

## Problem `src/timmy/confidence.py` was merged in PR #161 but is **dead code** — not imported or used anywhere. ``` $ grep -rn "from.*confidence import\|import.*confidence" src/ --include="*.py" (no results) ``` SOUL.md requires: "When I am uncertain, I must say so in proportion to my uncertainty. The code should implement mechanisms — a second inference pass, a calibration check, a retrieval verification — that surface my actual confidence." The module exists. It has `estimate_confidence(text) -> float`. It just needs to be wired in. ## Scope 1. In `src/timmy/agent.py` (or `agentic_loop.py`), after generating a response, call `estimate_confidence(response_text)` 2. Attach the confidence score to the response metadata 3. If confidence < 0.3, prepend a hedging disclaimer or log a warning 4. Store the score in session logs (via SessionLogger) ## Files - `src/timmy/confidence.py` (already exists, no changes needed) - `src/timmy/agent.py` — wire in confidence estimation - `src/timmy/session_logger.py` — add confidence field to log entries ## Acceptance Criteria - `estimate_confidence()` is called on every Timmy response - Confidence score appears in session log entries - Test: mock a hedging response, verify confidence < 0.5; mock a certain response, verify > 0.5 ## Tags [triage-generated] [feature] [soul-gap] ## Origin Timmy himself requested this during triage consultation: "Integrating the confidence module is most critical for my growth—it directly enables honest, transparent responses aligned with my core values."

hermes referenced this issue

2026-03-15 16:34:42 +00:00

[loop-cycle-52] feat: response audit trail with inputs, confidence, errors (#144) #191

hermes commented

2026-03-15 16:35:00 +00:00

Superseded by PR#191 which implements the full audit trail including confidence integration. Closing.

hermes closed this issue

2026-03-15 16:35:00 +00:00

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#171