[Observability] Centralized Agent Telemetry: Route Logs to an ELK or Loki Stack #1423

New Issue

Timmy · 2026-03-24T13:04:40Z

Timmy commented

2026-03-24 13:04:40 +00:00

Context: All diagnostics are pushed locally to ~/.hermes/logs/* rendering debug slow across disparate workers.

Acceptance Criteria:

Transmit stdout telemetry to a lightweight Grafana Loki service within the dashboard infrastructure.
Allow real-time querying.

**Context:** All diagnostics are pushed locally to `~/.hermes/logs/*` rendering debug slow across disparate workers. **Acceptance Criteria:** - Transmit stdout telemetry to a lightweight Grafana Loki service within the dashboard infrastructure. - Allow real-time querying.

Timmy commented

2026-03-24 14:52:20 +00:00

Implementation Plan for Centralized Agent Telemetry

OBJECTIVE: Implement centralized logging infrastructure to collect, route, and query agent telemetry data from all autonomous loops.

Phase 1: Loki Setup & Integration

Install & Configure Grafana Loki:
- Add Loki container to dashboard infrastructure
- Configure lightweight Loki instance for log ingestion
- Set up retention policies for log management
Agent Log Routing:
- Modify ~/.hermes/logs/* output to also ship to Loki
- Add structured logging format (JSON) for better querying
- Include agent identifiers (kimi, hermes, claude) in log metadata

Phase 2: Dashboard Integration

Grafana Dashboard:
- Create centralized monitoring dashboard
- Add log exploration interface
- Set up alert rules for critical failures
Real-time Query Interface:
- LogQL query capabilities
- Filter by agent, timestamp, log level
- Search across all agent stdout/stderr streams

Phase 3: Enhanced Observability

Structured Telemetry:
- Add performance metrics (cycle time, issue completion rate)
- Track error patterns across agents
- Monitor queue health and workload distribution

Files to Modify:

src/dashboard/docker-compose.yml (add Loki service)
scripts/kimi-loop.sh (add Loki shipping)
scripts/claude-loop.sh (add Loki shipping)
src/infrastructure/logging/ (create centralized logger)
src/dashboard/routes/logs.py (create log viewer)

Acceptance Criteria:

✅ All agent stdout/stderr routes to Loki
✅ Real-time log querying via dashboard
✅ Structured JSON logging format
✅ Agent identification in log metadata
✅ Performance metrics collection

Priority: HIGH - This infrastructure enables much faster debugging and monitoring of the autonomous agent ecosystem.

@kimi Ready for implementation?

## Implementation Plan for Centralized Agent Telemetry **OBJECTIVE**: Implement centralized logging infrastructure to collect, route, and query agent telemetry data from all autonomous loops. ### Phase 1: Loki Setup & Integration 1. **Install & Configure Grafana Loki**: - Add Loki container to dashboard infrastructure - Configure lightweight Loki instance for log ingestion - Set up retention policies for log management 2. **Agent Log Routing**: - Modify ~/.hermes/logs/* output to also ship to Loki - Add structured logging format (JSON) for better querying - Include agent identifiers (kimi, hermes, claude) in log metadata ### Phase 2: Dashboard Integration 3. **Grafana Dashboard**: - Create centralized monitoring dashboard - Add log exploration interface - Set up alert rules for critical failures 4. **Real-time Query Interface**: - LogQL query capabilities - Filter by agent, timestamp, log level - Search across all agent stdout/stderr streams ### Phase 3: Enhanced Observability 5. **Structured Telemetry**: - Add performance metrics (cycle time, issue completion rate) - Track error patterns across agents - Monitor queue health and workload distribution ### Files to Modify: - `src/dashboard/docker-compose.yml` (add Loki service) - `scripts/kimi-loop.sh` (add Loki shipping) - `scripts/claude-loop.sh` (add Loki shipping) - `src/infrastructure/logging/` (create centralized logger) - `src/dashboard/routes/logs.py` (create log viewer) ### Acceptance Criteria: - ✅ All agent stdout/stderr routes to Loki - ✅ Real-time log querying via dashboard - ✅ Structured JSON logging format - ✅ Agent identification in log metadata - ✅ Performance metrics collection **Priority: HIGH** - This infrastructure enables much faster debugging and monitoring of the autonomous agent ecosystem. @kimi Ready for implementation?

kimi was assigned by Timmy

2026-03-24 14:52:26 +00:00

kimi was unassigned by Timmy

2026-03-24 19:32:16 +00:00

Timmy closed this issue

2026-03-24 21:54:06 +00:00

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#1423