timmy-config

Author	SHA1	Message	Date
Merge Bot	a653434dbb	Merge PR #786 : training/scripts/quality_filter.py (added)	2026-04-16 04:58:20 +00:00
Alexander Whitestone	3603030235	feat: training data augmentation — paraphrase and translate pairs (#695 ) Some checks failed Architecture Lint / Linter Tests (pull_request) Successful in 22s Details Smoke Test / smoke (pull_request) Failing after 18s Details Validate Config / YAML Lint (pull_request) Failing after 23s Details Validate Config / JSON Validate (pull_request) Successful in 21s Details Validate Config / Python Syntax & Import Check (pull_request) Failing after 1m54s Details Validate Config / Shell Script Lint (pull_request) Failing after 54s Details Validate Config / Cron Syntax Check (pull_request) Successful in 16s Details Validate Config / Deploy Script Dry Run (pull_request) Successful in 16s Details Validate Config / Playbook Schema Validation (pull_request) Successful in 23s Details PR Checklist / pr-checklist (pull_request) Failing after 11m2s Details Architecture Lint / Lint Repository (pull_request) Has been cancelled Details Validate Config / Python Test Suite (pull_request) Has been cancelled Details augment_pairs.py: generates paraphrases and translations for any JSONL training file. Features: - Auto-detects text field (rich, terse, text, content, lyric_line, etc.) - N paraphrases per entry (template-based, or LLM with --llm-endpoint) - Translations to ES, FR, DE (template dictionary, or LLM) - Outputs augmented JSONL alongside originals - Marks each augmented entry with _augmentation, _original, _language Usage: python3 augment_pairs.py --input data.jsonl python3 augment_pairs.py --input data.jsonl --paraphrases 5 --langs es,fr python3 augment_pairs.py --input data.jsonl --llm-endpoint http://localhost:11434/v1 Closes #695	2026-04-15 07:51:38 -04:00

2 Commits