timmy-config

Timmy_Foundation/timmy-config

Fork 0

Files

History

Alexander Whitestone 79d148ddd8

Architecture Lint / Linter Tests (pull_request) Successful in 31s

Details

Smoke Test / smoke (pull_request) Failing after 21s

Details

Validate Config / YAML Lint (pull_request) Failing after 14s

Details

Validate Config / JSON Validate (pull_request) Successful in 15s

Details

Validate Config / Python Syntax & Import Check (pull_request) Failing after 1m12s

Details

PR Checklist / pr-checklist (pull_request) Failing after 5m45s

Details

Validate Config / Shell Script Lint (pull_request) Failing after 46s

Details

Validate Config / Cron Syntax Check (pull_request) Successful in 10s

Details

Validate Config / Deploy Script Dry Run (pull_request) Successful in 9s

Details

Validate Training Data / validate (pull_request) Successful in 15s

Details

Validate Config / Playbook Schema Validation (pull_request) Successful in 19s

Details

Architecture Lint / Lint Repository (pull_request) Has been cancelled

Details

Validate Config / Python Test Suite (pull_request) Has been cancelled

Details

feat: training data quality filter (#687 )

Scores training pairs and removes low-quality entries.

Scoring criteria:
- Response length (too short = low quality)
- Prompt/response ratio (response should be substantive)
- Filler detection (sure, okay, i dont know)
- Placeholder detection (TODO, FIXME, PLACEHOLDER)
- Prompt=response detection (duplicates)
- Repetition detection (repeated bigrams)
- Prompt minimum length

Usage:
  python3 training/scripts/quality_filter.py --input data.jsonl --dry-run
  python3 training/scripts/quality_filter.py --input data.jsonl --threshold 0.5

Closes #687

2026-04-16 00:45:50 -04:00

quality_filter.py

feat: training data quality filter (#687 )

2026-04-16 00:45:50 -04:00