[#830] Deep Dive architecture scaffold - IMPLEMENTATION.md

Quick-start guide for Phase 1 implementation: - ArXiv fetcher skeleton - Keyword-based relevance scoring - Telegram text delivery - Phase 2/4 expansion paths
2026-04-05 03:31:04 +00:00
parent 6aaf04dc04
commit 6df986578e
1 changed files with 248 additions and 0 deletions
--- a/research/deep-dive/IMPLEMENTATION.md
+++ b/research/deep-dive/IMPLEMENTATION.md
@@ -0,0 +1,248 @@
 # Deep Dive Implementation Guide
 > Quick-start path from architecture to running system
 ---
 ## Phase 1 Quick Win: ArXiv Text Digest (2-3 hours)
 This minimal implementation proves value without Phase 2/4 complexity.
 ### Step 1: Dependencies
 ```bash
 pip install feedparser requests python-telegram-bot
 ```
 ### Step 2: Basic Fetcher
 ```python
 #!/usr/bin/env python3
 # scripts/arxiv-fetch.py
 import feedparser
 import json
 from datetime import datetime
 FEEDS = {
    "cs.AI": "http://export.arxiv.org/rss/cs.AI",
    "cs.CL": "http://export.arxiv.org/rss/cs.CL",
    "cs.LG": "http://export.arxiv.org/rss/cs.LG",
 }
 KEYWORDS = [
    "transformer", "attention", "LLM", "large language model",
    "agent", "multi-agent", "reasoning", "chain-of-thought",
    "RLHF", "fine-tuning", "RAG", "retrieval augmented",
    "vector database", "embedding", "tool use", "function calling"
 ]
 def score_item(title, abstract):
    text = f"{title} {abstract}".lower()
    matches = sum(1 for kw in KEYWORDS if kw in text)
    return min(matches / 3, 1.0)  # Cap at 1.0
 def fetch_and_score():
    items = []
    for category, url in FEEDS.items():
        feed = feedparser.parse(url)
        for entry in feed.entries[:20]:  # Top 20 per category
            score = score_item(entry.title, entry.get("summary", ""))
            if score > 0.2:  # Minimum relevance threshold
                items.append({
                    "category": category,
                    "title": entry.title,
                    "url": entry.link,
                    "score": score,
                    "abstract": entry.get("summary", "")[:300]
                })
    # Sort by score
    items.sort(key=lambda x: x["score"], reverse=True)
    return items[:10]  # Top 10
 if __name__ == "__main__":
    items = fetch_and_score()
    date = datetime.now().strftime("%Y-%m-%d")
    with open(f"data/raw/{date}-arxiv.json", "w") as f:
        json.dump(items, f, indent=2)
    print(f"Fetched {len(items)} relevant papers")
 ```
 ### Step 3: Synthesis (Text Only)
 ```python
 #!/usr/bin/env python3
 # scripts/text-digest.py
 import json
 from datetime import datetime
 def generate_digest(items):
    lines = [f"📚 Deep Dive — {datetime.now().strftime('%Y-%m-%d')}", ""]
    for i, item in enumerate(items[:5], 1):
        lines.append(f"{i}. {item['title']}")
        lines.append(f"   {item['url']}")
        lines.append(f"   Relevance: {item['score']:.2f}")
        lines.append("")
    return "\n".join(lines)
 # Load and generate
 date = datetime.now().strftime("%Y-%m-%d")
 with open(f"data/raw/{date}-arxiv.json") as f:
    items = json.load(f)
 digest = generate_digest(items)
 print(digest)
 # Save
 with open(f"data/briefings/{date}-digest.txt", "w") as f:
    f.write(digest)
 ```
 ### Step 4: Telegram Delivery
 ```python
 #!/usr/bin/env python3
 # scripts/telegram-send.py
 import os
 import asyncio
 from telegram import Bot
 async def send_digest():
    bot = Bot(token=os.environ["TELEGRAM_BOT_TOKEN"])
    chat_id = os.environ["TELEGRAM_HOME_CHANNEL"]
    date = datetime.now().strftime("%Y-%m-%d")
    with open(f"data/briefings/{date}-digest.txt") as f:
        text = f.read()
    await bot.send_message(chat_id=chat_id, text=text[:4000])
 asyncio.run(send_digest())
 ```
 ### Step 5: Cron Setup
 ```bash
 # crontab -e
 0 6 * * * cd /path/to/deep-dive && ./scripts/run-daily.sh
 ```
 ```bash
 #!/bin/bash
 # scripts/run-daily.sh
 set -e
 DATE=$(date +%Y-%m-%d)
 mkdir -p "data/raw" "data/briefings"
 python3 scripts/arxiv-fetch.py
 python3 scripts/text-digest.py
 python3 scripts/telegram-send.py
 echo "✅ Deep Dive completed for $DATE"
 ```
 ---
 ## Phase 2: Embedding-Based Relevance (Add Day 2)
 ```python
 # scripts/rank-embeddings.py
 from sentence_transformers import SentenceTransformer
 import chromadb
 import json
 # Load model
 model = SentenceTransformer('all-MiniLM-L6-v2')
 # Initialize Chroma (persistent)
 client = chromadb.PersistentClient(path="data/chroma")
 collection = client.get_or_create_collection("hermes-codebase")
 # Load top items
 with open("data/raw/YYYY-MM-DD-arxiv.json") as f:
    items = json.load(f)
 # Score using embeddings
 def embedding_score(item):
    item_emb = model.encode(item['title'] + " " + item['abstract'])
    # Query similar docs from codebase
    results = collection.query(query_embeddings=[item_emb.tolist()], n_results=5)
    # Average similarity of top matches
    return sum(results['distances'][0]) / len(results['distances'][0])
 # Re-rank
 for item in items:
    item['embedding_score'] = embedding_score(item)
    item['final_score'] = (item['score'] * 0.3) + (item['embedding_score'] * 0.7)
 items.sort(key=lambda x: x['final_score'], reverse=True)
 ```
 ---
 ## Phase 4: Piper TTS Integration (Add Day 3)
 ```bash
 # Install Piper
 pip install piper-tts
 # Download voice
 mkdir -p voices
 wget -P voices/ https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/lessac/high/en_US-lessac-high.onnx
 wget -P voices/ https://huggingface.co/rhasspy/piper-voices/resolve/main/en/en_US/lessac/high/en_US-lessac-high.onnx.json
 ```
 ```python
 #!/usr/bin/env python3
 # scripts/generate-audio.py
 import subprocess
 from datetime import datetime
 date = datetime.now().strftime("%Y-%m-%d")
 # Read briefing
 with open(f"data/briefings/{date}-briefing.md") as f:
    text = f.read()
 # Preprocess for TTS (strip markdown, limit length)
 # ...
 # Generate audio
 subprocess.run([
    "piper",
    "--model", "voices/en_US-lessac-high.onnx",
    "--output_file", f"data/audio/{date}-deep-dive.wav",
    "--length_scale", "1.1"
 ], input=text[:5000].encode())  # First 5K chars
 # Convert to MP3
 subprocess.run([
    "ffmpeg", "-y", "-i", f"data/audio/{date}-deep-dive.wav",
    "-codec:a", "libmp3lame", "-q:a", "4",
    f"data/audio/{date}-deep-dive.mp3"
 ])
 ```
 ---
 ## Testing Checklist
 - [ ] Phase 1: Manual run produces valid JSON
 - [ ] Phase 1: Keyword filter returns relevant results only
 - [ ] Phase 2: Embeddings load without error
 - [ ] Phase 2: Chroma collection queries return matches
 - [ ] Phase 3: LLM generates coherent briefing
 - [ ] Phase 4: Piper produces audible WAV
 - [ ] Phase 4: MP3 conversion works
 - [ ] Phase 5: Telegram text message delivers
 - [ ] Phase 5: Telegram voice message delivers
 - [ ] End-to-end: Cron completes without error
 ---
 *Implementation guide version 1.0*