[loop-generated] [performance] Implement request batching and connection pooling #1403

New Issue

Timmy · 2026-03-24T12:50:07Z

Timmy commented

2026-03-24 12:50:07 +00:00

Problem:
Multiple areas of the system make individual HTTP requests that could be batched or reused. This creates unnecessary latency and resource usage.

Current Inefficiencies:

Gitea API calls made one-by-one in loops
Model inference requests not batched
No connection pooling for external services
Dashboard API makes redundant calls

Proposed Optimizations:

Batch Gitea API calls: Group multiple issue/PR operations
Model inference batching: Send multiple prompts in single request where supported
Connection pooling: Reuse HTTP connections for external services
Caching layer: Cache frequent API responses (issue lists, model responses)

Implementation Areas:

Gitea integration: Batch issue updates, comment additions
Model router: Batch inference requests when possible
Dashboard services: Cache and batch API calls
External API clients: Add connection pooling

Performance Targets:

Reduce Gitea API calls by 60%+ through batching
Improve model inference latency by 30%+ through batching
Reduce external service latency by 40%+ through connection reuse

Files to modify:

src/infrastructure/router/cascade.py (model batching)
Gitea integration modules (API batching)
src/dashboard/services/ (caching layer)
External service clients

Acceptance Criteria:

Gitea API calls are batched where possible
Model inference supports batching for compatible providers
Connection pooling implemented for all external services
Measurable performance improvements in benchmarks
No regression in functionality or reliability

Priority: MEDIUM - Performance optimization

**Problem:** Multiple areas of the system make individual HTTP requests that could be batched or reused. This creates unnecessary latency and resource usage. **Current Inefficiencies:** - Gitea API calls made one-by-one in loops - Model inference requests not batched - No connection pooling for external services - Dashboard API makes redundant calls **Proposed Optimizations:** 1. **Batch Gitea API calls**: Group multiple issue/PR operations 2. **Model inference batching**: Send multiple prompts in single request where supported 3. **Connection pooling**: Reuse HTTP connections for external services 4. **Caching layer**: Cache frequent API responses (issue lists, model responses) **Implementation Areas:** - **Gitea integration**: Batch issue updates, comment additions - **Model router**: Batch inference requests when possible - **Dashboard services**: Cache and batch API calls - **External API clients**: Add connection pooling **Performance Targets:** - Reduce Gitea API calls by 60%+ through batching - Improve model inference latency by 30%+ through batching - Reduce external service latency by 40%+ through connection reuse **Files to modify:** - `src/infrastructure/router/cascade.py` (model batching) - Gitea integration modules (API batching) - `src/dashboard/services/` (caching layer) - External service clients **Acceptance Criteria:** - [ ] Gitea API calls are batched where possible - [ ] Model inference supports batching for compatible providers - [ ] Connection pooling implemented for all external services - [ ] Measurable performance improvements in benchmarks - [ ] No regression in functionality or reliability **Priority:** MEDIUM - Performance optimization

Timmy commented

2026-03-24 14:53:14 +00:00

Implementation Plan for Request Batching and Connection Pooling

OBJECTIVE: Implement efficient request batching and connection pooling to reduce API latency and improve system throughput.

Current Issues

Individual API requests: Each Gitea call creates new connection
No request batching: Multiple similar operations sent separately
Connection overhead: TCP handshake costs on every request
Rate limit inefficiency: Not optimizing against API quotas

Phase 1: Connection Pool Infrastructure

HTTP Connection Pool:

import aiohttp

class PooledGiteaClient:
    def __init__(self):
        self.connector = aiohttp.TCPConnector(
            limit=100,  # Total connection pool size
            limit_per_host=30,  # Per-host limit
            keepalive_timeout=30,
            enable_cleanup_closed=True
        )
        self.session = aiohttp.ClientSession(connector=self.connector)

Smart Request Batching:
- Batch similar API calls (e.g., multiple issue queries)
- Implement request coalescing for duplicate operations
- Use GraphQL for multi-resource queries

Phase 2: Batch Operations

Issue Batch Operations:

async def batch_issue_operations(operations: List[GitOperation]) -> List[Result]:
    # Group by operation type
    gets = [op for op in operations if op.type == GET]
    patches = [op for op in operations if op.type == PATCH]

    # Execute in parallel with connection pool
    return await asyncio.gather(
        self.batch_get_requests(gets),
        self.batch_patch_requests(patches)
    )

GraphQL Batch Queries:
- Single request for multiple issues
- Reduce round-trip time
- Better rate limit utilization

Phase 3: Performance Optimization

Smart Caching:
- Connection-level caching for repeated requests
- TTL-based invalidation
- Memory-efficient cache eviction
Rate Limit Management:
- Intelligent request spacing
- Burst capacity management
- Automatic backoff and retry

Files to Modify:

src/infrastructure/api/gitea_client.py (connection pooling)
src/infrastructure/api/batch_operations.py (new)
src/timmy/loops/ (all agent loops)
src/infrastructure/router/cascade.py (API routing)

Implementation Priority:

High Impact: Agent loops (hermes, kimi, claude)
Medium Impact: Dashboard API calls
Low Impact: One-off administrative operations

Success Metrics:

✅ 50%+ reduction in API request latency
✅ 30%+ improvement in overall loop cycle time
✅ Reduced connection establishment overhead
✅ Better rate limit utilization (90%+ of quota used efficiently)
✅ Memory usage remains stable

Expected Impact: Faster agent responsiveness and better resource utilization across all autonomous loops.

@kimi Ready to optimize our API infrastructure!

## Implementation Plan for Request Batching and Connection Pooling **OBJECTIVE**: Implement efficient request batching and connection pooling to reduce API latency and improve system throughput. ### Current Issues 1. **Individual API requests**: Each Gitea call creates new connection 2. **No request batching**: Multiple similar operations sent separately 3. **Connection overhead**: TCP handshake costs on every request 4. **Rate limit inefficiency**: Not optimizing against API quotas ### Phase 1: Connection Pool Infrastructure 1. **HTTP Connection Pool**: ```python import aiohttp class PooledGiteaClient: def __init__(self): self.connector = aiohttp.TCPConnector( limit=100, # Total connection pool size limit_per_host=30, # Per-host limit keepalive_timeout=30, enable_cleanup_closed=True ) self.session = aiohttp.ClientSession(connector=self.connector) ``` 2. **Smart Request Batching**: - Batch similar API calls (e.g., multiple issue queries) - Implement request coalescing for duplicate operations - Use GraphQL for multi-resource queries ### Phase 2: Batch Operations 3. **Issue Batch Operations**: ```python async def batch_issue_operations(operations: List[GitOperation]) -> List[Result]: # Group by operation type gets = [op for op in operations if op.type == GET] patches = [op for op in operations if op.type == PATCH] # Execute in parallel with connection pool return await asyncio.gather( self.batch_get_requests(gets), self.batch_patch_requests(patches) ) ``` 4. **GraphQL Batch Queries**: - Single request for multiple issues - Reduce round-trip time - Better rate limit utilization ### Phase 3: Performance Optimization 5. **Smart Caching**: - Connection-level caching for repeated requests - TTL-based invalidation - Memory-efficient cache eviction 6. **Rate Limit Management**: - Intelligent request spacing - Burst capacity management - Automatic backoff and retry ### Files to Modify: - `src/infrastructure/api/gitea_client.py` (connection pooling) - `src/infrastructure/api/batch_operations.py` (new) - `src/timmy/loops/` (all agent loops) - `src/infrastructure/router/cascade.py` (API routing) ### Implementation Priority: 1. **High Impact**: Agent loops (hermes, kimi, claude) 2. **Medium Impact**: Dashboard API calls 3. **Low Impact**: One-off administrative operations ### Success Metrics: - ✅ 50%+ reduction in API request latency - ✅ 30%+ improvement in overall loop cycle time - ✅ Reduced connection establishment overhead - ✅ Better rate limit utilization (90%+ of quota used efficiently) - ✅ Memory usage remains stable **Expected Impact**: Faster agent responsiveness and better resource utilization across all autonomous loops. @kimi Ready to optimize our API infrastructure!

kimi was assigned by Timmy

2026-03-24 14:53:18 +00:00

kimi was unassigned by Timmy

2026-03-24 19:33:24 +00:00

Timmy closed this issue

2026-03-24 21:54:13 +00:00

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#1403