docs: verify issue #600 visual scenes dataset is present on main

Add regression test confirming visual-scenes-500.jsonl satisfies issue #600: - 500 valid JSONL records - Required fields (terse, rich, domain) all present and non-empty - Domain equals "visual scenes" for every record - Full-record uniqueness This closes the loop on Training Factory Worker 1/6 (visual scenes). The dataset was originally added via PR #731 (merged to main). Closes #600.
2026-04-29 23:36:36 -04:00
2 changed files with 119 additions and 0 deletions
--- a/docs/issue-600-verification.md
+++ b/docs/issue-600-verification.md
@@ -0,0 +1,28 @@
 # Issue #600 Verification: Visual Scenes Prompt Enhancement
 **Status:** ✅ Complete — dataset present on main  
 **Issue:** [Timmy_Foundation/timmy-config#600](https://forge.alexanderwhitestone.com/Timmy_Foundation/timmy-config/issues/600)  
 **Dataset:** `training/data/prompt-enhancement/visual-scenes-500.jsonl`  
 **Records:** 500  
 **Domain:** `visual scenes` (all records)
 ## Validation
 | Check | Result |
 |-------|--------|
 | File exists | ✅ |
 | 500 JSONL records | ✅ |
 | Valid JSON per line | ✅ |
 | Required fields (terse, rich, domain) | ✅ |
 | Domain equals "visual scenes" | ✅ |
 | Non-empty terse and rich strings | ✅ |
 | Full-record uniqueness | ✅ |
 ## Notes
 - 65 terse prompts appear more than once (different rich expansions for same terse). The dataset contract specifies unique *pairs*, not unique terse prompts. Acceptable.
 - File added via PR #731: `feat: 500 visual scene prompt enhancement pairs (#600)`. Merged to main.
 ## Files Added in This PR
 - `tests/test_prompt_enhancement_visual_scenes.py` — regression test validating the dataset meets issue requirements.
--- a/tests/test_prompt_enhancement_visual_scenes.py
+++ b/tests/test_prompt_enhancement_visual_scenes.py
@@ -0,0 +1,91 @@
 #!/usr/bin/env python3
 """
 Verification test for issue #600: Prompt Enhancement — Visual Scenes 500 pairs.
 This test confirms that the visual-scenes-500.jsonl dataset exists on main
 and satisfies the requirements defined in the Training Factory specification.
 Acceptance criteria:
 - 500 JSONL records
 - Each record: {"terse": str, "rich": str, "domain": "visual scenes"}
 - All fields non-empty strings
 - All records have correct domain value
 Evidence: dataset present at training/data/prompt-enhancement/visual-scenes-500.jsonl
 Branch: main (merged via PR #731)
 """
 import json
 from pathlib import Path
 REPO_ROOT = Path(__file__).resolve().parent.parent
 DATASET_PATH = REPO_ROOT / "training" / "data" / "prompt-enhancement" / "visual-scenes-500.jsonl"
 def test_dataset_file_exists():
    """Verify the visual scenes dataset file exists."""
    assert DATASET_PATH.exists(), (
        f"Missing dataset file: {DATASET_PATH}. "
        "Run the visual scene prompt enhancement worker to generate 500 pairs."
    )
 def test_dataset_has_500_records():
    """Verify exactly 500 records are present."""
    with open(DATASET_PATH) as f:
        lines = f.readlines()
    assert len(lines) == 500, f"Expected 500 records, got {len(lines)}"
 def test_all_records_valid_json():
    """Verify every line parses as valid JSON."""
    records = []
    with open(DATASET_PATH) as f:
        for i, line in enumerate(f, 1):
            try:
                rec = json.loads(line)
                records.append(rec)
            except json.JSONDecodeError as e:
                assert False, f"Line {i}: invalid JSON: {e}"
    assert len(records) == 500
 def test_each_record_has_required_fields():
    """Verify terse, rich, domain fields exist and are non-empty strings."""
    with open(DATASET_PATH) as f:
        for i, line in enumerate(f, 1):
            rec = json.loads(line)
            terse = rec.get("terse")
            rich = rec.get("rich")
            domain = rec.get("domain")
            assert isinstance(terse, str) and terse.strip(), (
                f"Line {i}: missing or empty 'terse' field"
            )
            assert isinstance(rich, str) and rich.strip(), (
                f"Line {i}: missing or empty 'rich' field"
            )
            assert isinstance(domain, str) and domain.strip(), (
                f"Line {i}: missing or empty 'domain' field"
            )
 def test_domain_value_is_visual_scenes():
    """Verify every record's domain is exactly 'visual scenes'."""
    with open(DATASET_PATH) as f:
        for i, line in enumerate(f, 1):
            rec = json.loads(line)
            assert rec["domain"] == "visual scenes", (
                f"Line {i}: domain '{rec['domain']}' != 'visual scenes'"
            )
 def test_record_uniqueness():
    """Verify each JSON record (full object) is unique."""
    records = []
    with open(DATASET_PATH) as f:
        for line in f:
            records.append(json.loads(line))
    unique = {json.dumps(rec, sort_keys=True) for rec in records}
    assert len(unique) == 500, (
        f"Duplicate records found: {500 - len(unique)} record(s) are not unique"
    )