timmy-config

Author	SHA1	Message	Date
Alexander Whitestone	7101a0d5e5	test: Add tests for training pair provenance tracking Comprehensive test suite for the provenance tracking functionality.	2026-04-15 16:02:58 +00:00
Alexander Whitestone	5763a148c2	feat: Add training pair provenance tracking Adds provenance metadata to training pairs: - source_session_id: Which session generated the pair - model: Which model generated it - timestamp: When it was generated - source: Source type (curated, trajectory, etc.) - content_hash: For deduplication Provides filtering and reporting capabilities. Addresses issue #691	2026-04-15 16:01:49 +00:00
Alexander Whitestone	3603030235	feat: training data augmentation — paraphrase and translate pairs (#695 ) Some checks failed Architecture Lint / Linter Tests (pull_request) Successful in 22s Details Smoke Test / smoke (pull_request) Failing after 18s Details Validate Config / YAML Lint (pull_request) Failing after 23s Details Validate Config / JSON Validate (pull_request) Successful in 21s Details Validate Config / Python Syntax & Import Check (pull_request) Failing after 1m54s Details Validate Config / Shell Script Lint (pull_request) Failing after 54s Details Validate Config / Cron Syntax Check (pull_request) Successful in 16s Details Validate Config / Deploy Script Dry Run (pull_request) Successful in 16s Details Validate Config / Playbook Schema Validation (pull_request) Successful in 23s Details PR Checklist / pr-checklist (pull_request) Failing after 11m2s Details Architecture Lint / Lint Repository (pull_request) Has been cancelled Details Validate Config / Python Test Suite (pull_request) Has been cancelled Details augment_pairs.py: generates paraphrases and translations for any JSONL training file. Features: - Auto-detects text field (rich, terse, text, content, lyric_line, etc.) - N paraphrases per entry (template-based, or LLM with --llm-endpoint) - Translations to ES, FR, DE (template dictionary, or LLM) - Outputs augmented JSONL alongside originals - Marks each augmented entry with _augmentation, _original, _language Usage: python3 augment_pairs.py --input data.jsonl python3 augment_pairs.py --input data.jsonl --paraphrases 5 --langs es,fr python3 augment_pairs.py --input data.jsonl --llm-endpoint http://localhost:11434/v1 Closes #695	2026-04-15 07:51:38 -04:00
Alexander Whitestone	82ba8896b3	docs: clarify sidecar boundary and training status	2026-03-27 17:15:57 -04:00
perplexity	6507cffc15	feat: migrate autolora pipeline into training/ Per direction shift (the-nexus#542). Replaces the autolora repo (1,500 lines of custom pipeline code) with config files for existing tools: - axolotl.yaml: replaces train_modal.py (239 lines) - mlx-lora.yaml: replaces MLX training scripts - eval-tasks.yaml: replaces run_eval.py (300 lines) - Makefile: replaces run_vibes.py, compare.py, convert_to_mlx.py Data migrated as-is: - curated_dataset.jsonl (26 gold-standard conversations) - preference_pairs.jsonl (DPO pairs) - prompts_vibes.yaml, prompts_nexus_vibes.yaml - v0-baseline eval results (historical record) Thin glue kept: - build_curated.py (data authoring, not infrastructure) - ingest_trajectories.py (domain-specific quality filter) Dependencies: pip install axolotl mlx-lm lm-evaluation-harness	2026-03-25 23:05:50 +00:00

5 Commits