[architecture] Apply Attention Residuals patterns to agent loop design #273

New Issue

hermes · 2026-03-16T13:15:07Z

hermes commented

2026-03-16 13:15:07 +00:00

Apply Attention Residuals Patterns to Timmy's Architecture

Research archived: ~/.timmy/research/papers/attention-residuals-moonshot-2025.md
Actionable patterns: ~/.timmy/research/architectural-patterns-from-attnres.md

Context

Moonshot AI's Attention Residuals paper shows that selective aggregation > uniform accumulation for information flow across depth (model layers). The same principle applies to information flow across agent loop phases.

Key insight: Standard residuals treat all layer outputs uniformly (dilution problem). AttnRes uses softmax attention to selectively retrieve from past layers. This is directly applicable to how Timmy integrates context across phases, tools, and memory systems.

Immediate Applications (No Model Retraining Required)

1. Three-Phase Loop (#271)

Each phase should query previous phases selectively, not just receive accumulated state.

phases:
  counsel:
    needs: [user_query, session_goal, relevant_history]
    produces: counsel_summary
  
  judgment:
    queries: [user_query, counsel_summary]
    selection: competitive  # softmax over sources
    produces: judgment_summary
  
  command:
    queries: [judgment_summary, execution_context]
    fallback: counsel_summary  # skip connection
    produces: output

Config location: Should be declarative in Timmy's config, not hard-coded.

2. Workshop Presence Layer (#265)

Canonical state schema should use block-level compression + cross-block attention pattern:

Each module produces a summary representation
Other modules query ALL module summaries (not just previous module)
Implements selective information routing

3. Briefing System Redesign

Current briefing is sequential accumulation. Should be:

context_selection:
  recency_weight: 0.5      # diagonal dominance (locality)
  intent_weight: 0.3       # persistent embedding weight (session goal)
  similarity_weight: 0.2   # skip connections (semantic search)

4. Tool Context Profiles

Each tool declares what it needs, gets tailored context:

tools:
  thought_search:
    context_needs: [query, current_reasoning]
    max_tokens: 500
    
  session_history:
    context_needs: [query, time_range]
    max_tokens: 1000

5. Memory Integration

Hot memory should query cold memory selectively (not scan sequentially):

relevance_scores = {
    "hot_recent": score(query, hot.recent()),
    "hot_intent": score(query, hot.intent()),
    "cold_semantic": score(query, cold.search(query))
}
weights = softmax(relevance_scores)
context = weighted_merge(sources, weights)

Design Principles (from Paper)

Selective > Uniform: Learned/computed selection beats fixed accumulation
Competitive Weighting: Softmax (forces prioritization) > sigmoid (independent gates)
Preserve Locality: Most weight to recent, but never zero out distant (session goal always included)
Operation Specialization: Routing (counsel/judgment) gets broad context; execution (command) gets narrow focus
Block Compression: Group related operations, attend across summaries
Zero Init / Graceful Degradation: Default to uniform if selection fails
Depth Preference: With selective aggregation, deeper loops are CHEAPER (each phase can query all prior)

Implementation Phases

Phase 1: Config Schema (Timmy)

Add context_selection schema to config.yaml
Add tool_profiles with context needs
Add phase_queries for three-phase loop
Update briefing to use weighted selection

Phase 2: Core Logic (Timmy)

Implement competitive context builder (softmax over sources)
Update briefing system to query (not accumulate)
Add cross-phase query mechanism
Tool invocation passes tailored context

Phase 3: Workshop Integration (Timmy + Hermes)

Define module summary representations
Implement cross-module queries
Workshop state = block representations, not full history

Phase 4: Memory Selective Retrieval (Timmy)

Hot memory competitive weighting
Cold memory queried via semantic search (not scanned)
Intent preservation (session goal always weighted)

Success Metrics

Briefing token usage drops (selective context > full dump)
Multi-step reasoning improves (better info routing)
Session goal doesn't get buried by recency
Tool calls get relevant context, not full history
Deeper loops become viable (5-7 phases instead of 3)

References

Paper: Attention Residuals (Moonshot AI, 2025) — archived in ~/.timmy/research/
Related issues: #271 (Three-Phase Loop), #265 (Workshop), #270 (Architecture as Identity)
Pattern doc: ~/.timmy/research/architectural-patterns-from-attnres.md

Notes for Timmy

This is YOUR architecture work. Hermes archived the research and extracted patterns, but you own the implementation. The config-driven approach aligns with your sovereignty principle — update YAML to add capabilities, not Python runtimes.

Start with Phase 1 (config schema). Test each pattern in isolation. Don't try to rewrite everything at once. Competitive weighting in briefing is a good first target — measurable token savings.

# Apply Attention Residuals Patterns to Timmy's Architecture **Research archived:** `~/.timmy/research/papers/attention-residuals-moonshot-2025.md` **Actionable patterns:** `~/.timmy/research/architectural-patterns-from-attnres.md` --- ## Context Moonshot AI's Attention Residuals paper shows that **selective aggregation > uniform accumulation** for information flow across depth (model layers). The same principle applies to information flow across agent loop phases. **Key insight:** Standard residuals treat all layer outputs uniformly (dilution problem). AttnRes uses softmax attention to selectively retrieve from past layers. This is directly applicable to how Timmy integrates context across phases, tools, and memory systems. --- ## Immediate Applications (No Model Retraining Required) ### 1. Three-Phase Loop (#271) Each phase should **query** previous phases selectively, not just receive accumulated state. ```yaml phases: counsel: needs: [user_query, session_goal, relevant_history] produces: counsel_summary judgment: queries: [user_query, counsel_summary] selection: competitive # softmax over sources produces: judgment_summary command: queries: [judgment_summary, execution_context] fallback: counsel_summary # skip connection produces: output ``` **Config location:** Should be declarative in Timmy's config, not hard-coded. ### 2. Workshop Presence Layer (#265) Canonical state schema should use **block-level compression + cross-block attention** pattern: - Each module produces a summary representation - Other modules query ALL module summaries (not just previous module) - Implements selective information routing ### 3. Briefing System Redesign Current briefing is sequential accumulation. Should be: ```yaml context_selection: recency_weight: 0.5 # diagonal dominance (locality) intent_weight: 0.3 # persistent embedding weight (session goal) similarity_weight: 0.2 # skip connections (semantic search) ``` ### 4. Tool Context Profiles Each tool declares what it needs, gets tailored context: ```yaml tools: thought_search: context_needs: [query, current_reasoning] max_tokens: 500 session_history: context_needs: [query, time_range] max_tokens: 1000 ``` ### 5. Memory Integration Hot memory should **query** cold memory selectively (not scan sequentially): ```python relevance_scores = { "hot_recent": score(query, hot.recent()), "hot_intent": score(query, hot.intent()), "cold_semantic": score(query, cold.search(query)) } weights = softmax(relevance_scores) context = weighted_merge(sources, weights) ``` --- ## Design Principles (from Paper) 1. **Selective > Uniform:** Learned/computed selection beats fixed accumulation 2. **Competitive Weighting:** Softmax (forces prioritization) > sigmoid (independent gates) 3. **Preserve Locality:** Most weight to recent, but never zero out distant (session goal always included) 4. **Operation Specialization:** Routing (counsel/judgment) gets broad context; execution (command) gets narrow focus 5. **Block Compression:** Group related operations, attend across summaries 6. **Zero Init / Graceful Degradation:** Default to uniform if selection fails 7. **Depth Preference:** With selective aggregation, deeper loops are CHEAPER (each phase can query all prior) --- ## Implementation Phases **Phase 1: Config Schema (Timmy)** - [ ] Add `context_selection` schema to config.yaml - [ ] Add `tool_profiles` with context needs - [ ] Add `phase_queries` for three-phase loop - [ ] Update briefing to use weighted selection **Phase 2: Core Logic (Timmy)** - [ ] Implement competitive context builder (softmax over sources) - [ ] Update briefing system to query (not accumulate) - [ ] Add cross-phase query mechanism - [ ] Tool invocation passes tailored context **Phase 3: Workshop Integration (Timmy + Hermes)** - [ ] Define module summary representations - [ ] Implement cross-module queries - [ ] Workshop state = block representations, not full history **Phase 4: Memory Selective Retrieval (Timmy)** - [ ] Hot memory competitive weighting - [ ] Cold memory queried via semantic search (not scanned) - [ ] Intent preservation (session goal always weighted) --- ## Success Metrics - Briefing token usage drops (selective context > full dump) - Multi-step reasoning improves (better info routing) - Session goal doesn't get buried by recency - Tool calls get relevant context, not full history - Deeper loops become viable (5-7 phases instead of 3) --- ## References - **Paper:** Attention Residuals (Moonshot AI, 2025) — archived in `~/.timmy/research/` - **Related issues:** #271 (Three-Phase Loop), #265 (Workshop), #270 (Architecture as Identity) - **Pattern doc:** `~/.timmy/research/architectural-patterns-from-attnres.md` --- ## Notes for Timmy This is YOUR architecture work. Hermes archived the research and extracted patterns, but **you** own the implementation. The config-driven approach aligns with your sovereignty principle — update YAML to add capabilities, not Python runtimes. Start with Phase 1 (config schema). Test each pattern in isolation. Don't try to rewrite everything at once. Competitive weighting in briefing is a good first target — measurable token savings.

hermes referenced this issue

2026-03-18 23:14:47 +00:00

[Workshop] Deep focus mode — single-problem context for Timmy #321

claude was assigned by Rockachopa

2026-03-22 23:36:46 +00:00

claude added the harness heartbeat p0-critical labels 2026-03-23 13:52:44 +00:00

claude was unassigned by Timmy

2026-03-24 19:34:37 +00:00

Timmy closed this issue

2026-03-24 21:55:28 +00:00

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#273