[P0] Implement web_fetch tool (trafilatura) in src/timmy/tools.py #973

New Issue

perplexity · 2026-03-22T19:08:52Z

perplexity commented

2026-03-22 19:08:52 +00:00

Parent

#972 — [GOVERNING] Replacing Claude — Autonomous Research Pipeline Spec

Objective

Add a web_fetch tool that downloads a URL, extracts clean text via trafilatura, and returns content truncated to a token budget. This closes the single biggest gap in Timmy's research pipeline.

Scope

pip install trafilatura (Apache 2.0 license)
Implement web_fetch(url: str, max_tokens: int = 4000) -> str
Use requests.get() with 15s timeout and TimmyResearchBot/1.0 user-agent
Extract clean text via trafilatura.extract(resp.text, include_tables=True, include_links=True)
Truncate to max_tokens * 4 characters (~4 chars per token)
Register as Agno tool in create_full_toolkit()
Handle errors gracefully (timeout, 404, extraction failure)

Key Design Notes

Pure Python, zero cloud dependency, runs locally forever
Existing web_search returns snippets only — this tool reads full pages
Combined with web_search, enables the complete Search→Fetch→Synthesize pipeline

Effort Estimate

2 hours

Acceptance Criteria

web_fetch("https://example.com") returns clean extracted text
Token budget truncation works correctly
Registered and callable as Agno tool
Error handling for timeouts, bad URLs, empty pages

## Parent - #972 — [GOVERNING] Replacing Claude — Autonomous Research Pipeline Spec ## Objective Add a `web_fetch` tool that downloads a URL, extracts clean text via trafilatura, and returns content truncated to a token budget. This closes the single biggest gap in Timmy's research pipeline. ## Scope - `pip install trafilatura` (Apache 2.0 license) - Implement `web_fetch(url: str, max_tokens: int = 4000) -> str` - Use `requests.get()` with 15s timeout and `TimmyResearchBot/1.0` user-agent - Extract clean text via `trafilatura.extract(resp.text, include_tables=True, include_links=True)` - Truncate to `max_tokens * 4` characters (~4 chars per token) - Register as Agno tool in `create_full_toolkit()` - Handle errors gracefully (timeout, 404, extraction failure) ## Key Design Notes - Pure Python, zero cloud dependency, runs locally forever - Existing `web_search` returns snippets only — this tool reads full pages - Combined with web_search, enables the complete Search→Fetch→Synthesize pipeline ## Effort Estimate 2 hours ## Acceptance Criteria - [ ] `web_fetch("https://example.com")` returns clean extracted text - [ ] Token budget truncation works correctly - [ ] Registered and callable as Agno tool - [ ] Error handling for timeouts, bad URLs, empty pages

perplexity referenced this issue

2026-03-22 19:12:48 +00:00

[GOVERNING] Replacing Claude — Autonomous Research Pipeline Spec #972

claude was assigned by Rockachopa

2026-03-22 21:44:43 +00:00

claude referenced this issue from a commit

2026-03-22 23:03:13 +00:00

feat: add web_fetch tool for full-page content extraction (trafilatura)

claude referenced a pull request that will close this issue

2026-03-22 23:03:24 +00:00

[claude] Add web_fetch tool (trafilatura) for full-page content extraction (#973) #1004

claude commented

2026-03-22 23:03:32 +00:00

PR created: http://143.198.27.163:3000/rockachopa/Timmy-time-dashboard/pulls/1004

Implemented web_fetch(url, max_tokens=4000) tool using trafilatura for clean text extraction. Handles all error cases gracefully (invalid URLs, timeouts, HTTP errors, empty pages, missing packages). Registered in create_full_toolkit() with catalog entry. 11 unit tests, all passing.

PR created: http://143.198.27.163:3000/rockachopa/Timmy-time-dashboard/pulls/1004 Implemented `web_fetch(url, max_tokens=4000)` tool using trafilatura for clean text extraction. Handles all error cases gracefully (invalid URLs, timeouts, HTTP errors, empty pages, missing packages). Registered in `create_full_toolkit()` with catalog entry. 11 unit tests, all passing.

claude closed this issue

2026-03-22 23:03:38 +00:00

claude referenced this issue from a commit

2026-03-22 23:03:39 +00:00

[claude] Add web_fetch tool (trafilatura) for full-page content extraction (#973) (#1004)

claude referenced this issue from a commit

2026-03-24 01:40:15 +00:00

feat: implement autonomous research pipeline (#972)

claude referenced this issue

2026-03-24 01:40:33 +00:00

[claude] Autonomous research pipeline — orchestrator + SOVEREIGNTY.md (#972) #1274

claude referenced this issue

2026-03-24 01:40:45 +00:00

[GOVERNING] Replacing Claude — Autonomous Research Pipeline Spec #972

Sign in to join this conversation.

Branches Tags

main

gemini/issue-892

claude/issue-1342

claude/issue-1346

claude/issue-1351

claude/issue-1340

fix/test-llm-triage-syntax

gemini/issue-1014

gemini/issue-932

claude/issue-1277

claude/issue-1139

claude/issue-870

claude/issue-1285

claude/issue-1292

claude/issue-1281

claude/issue-917

claude/issue-1275

claude/issue-925

claude/issue-1019

claude/issue-1094

claude/issue-1019-v3

fix/flaky-vassal-xdist-tests

fix/test-config-env-isolation

claude/issue-1019-v2

claude/issue-957-v2

claude/issue-1218

claude/issue-1217

test/chat-store-unit-tests

claude/issue-1191

claude/issue-1186

claude/issue-957

gemini/issue-936

claude/issue-1065

gemini/issue-976

gemini/issue-1149

claude/issue-1135

claude/issue-1064

gemini/issue-1012

claude/issue-1095

claude/issue-1102

claude/issue-1114

gemini/issue-978

gemini/issue-971

claude/issue-1074

claude/issue-987

claude/issue-1011

feature/internal-monologue

feature/issue-1006

feature/issue-1007

feature/issue-1008

feature/issue-1009

feature/issue-1010

feature/issue-1011

feature/issue-1012

feature/issue-1013

feature/issue-1014

feature/issue-981

feature/issue-982

feature/issue-983

feature/issue-984

feature/issue-985

feature/issue-986

feature/issue-987

feature/issue-993

claude/issue-943

claude/issue-975

claude/issue-989

claude/issue-988

fix/loop-guard-gitea-api-and-queue-validation

feature/lhf-tech-debt-fixes

kimi/issue-753

kimi/issue-714

kimi/issue-716

fix/csrf-check-before-execute

chore/migrate-gitea-to-vps

kimi/issue-640

fix/utcnow-calm-py

kimi/issue-635

kimi/issue-625

fix/router-api-truncated-param

kimi/issue-604

kimi/issue-594

review-fixes

kimi/issue-570

kimi/issue-554

kimi/issue-539

kimi/issue-540

feature/ipad-v1-api

kimi/issue-506

kimi/issue-512

refactor/airllm-doc-cleanup

kimi/issue-513

kimi/issue-514

kimi/issue-500

kimi/issue-492

kimi/issue-490

kimi/issue-459

kimi/issue-472

kimi/issue-473

kimi/issue-462

kimi/issue-463

kimi/issue-454

kimi/issue-445

kimi/issue-446

kimi/issue-431

2 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Rockachopa/Timmy-time-dashboard#973