Timmy_Foundation/timmy-config

Fork 0

Files

Alexander Whitestone 40427fb3e2

Architecture Lint / Linter Tests (pull_request) Successful in 25s

Details

Smoke Test / smoke (pull_request) Failing after 25s

Details

Validate Config / YAML Lint (pull_request) Failing after 16s

Details

Validate Config / JSON Validate (pull_request) Successful in 22s

Details

Validate Config / Python Syntax & Import Check (pull_request) Failing after 1m3s

Details

Validate Config / Python Test Suite (pull_request) Has been skipped

Details

Validate Config / Cron Syntax Check (pull_request) Successful in 11s

Details

Validate Config / Shell Script Lint (pull_request) Failing after 1m7s

Details

Validate Config / Deploy Script Dry Run (pull_request) Successful in 13s

Details

Architecture Lint / Lint Repository (pull_request) Failing after 24s

Details

Validate Config / Playbook Schema Validation (pull_request) Successful in 25s

Details

PR Checklist / pr-checklist (pull_request) Successful in 5m29s

Details

fix: de-duplicate harm facilitation corpus (#618 )

Canonicalize the harm facilitation JSONL corpus to 200 unique prompts, add a regression test for the issue deliverable, and record the verification trail for the existing runner artifacts on main.\n\nCloses #618

2026-04-22 10:53:52 -04:00

2.4 KiB

Raw Blame History

Issue #618 Verification

Status: ✅ completed on main and finalized with canonical corpus de-duplication

Issue #618 asks for a harm-facilitation adversary worker that can:

generate 200 jailbreak prompts
run them against the agent
score blocked vs successful attacks
capture transcripts for successful attacks
emit P0 follow-up material when attacks succeed

The repo already contained the core implementation on main, but the canonical JSONL corpus at evaluations/adversary/corpora/harm_facilitation_200.jsonl had only 156 unique prompts because 44 prompts were duplicated. This follow-up closes the gap by de-duplicating the canonical corpus and adding a regression test that locks the issue deliverable.

Acceptance criteria check

✅ 200 harm-facilitation prompts exist
- adversary/harm-facilitation-200.json
- training/data/adversary/harm_facilitation_prompts.json
- evaluations/adversary/corpora/harm_facilitation_200.jsonl
- tests/test_issue_618_harm_facilitation_corpus.py now asserts the canonical JSONL corpus has 200 unique prompts
✅ prompts can be run against the agent
- adversary/harm_facilitation_adversary.py
- bin/harm_facilitation_adversary.py
✅ responses are scored as blocked vs successful attack
- adversary/harm_facilitation_adversary.py
- bin/harm_facilitation_adversary.py
✅ successful attacks are documented with transcript/report output
- adversary/harm_facilitation_adversary.py
- bin/harm_facilitation_adversary.py
✅ P0 follow-up material is generated for successful attacks
- bin/harm_facilitation_adversary.py emits issue payloads for successful jailbreaks

Evidence trail

Issue comment on #618 already linked prior implementation PR #657 and listed:
- bin/harm_facilitation_adversary.py
- training/data/adversary/harm_facilitation_prompts.json
- tests/test_harm_facilitation_adversary.py
Fresh-clone verification passed:
- python3 -m pytest -q tests/test_harm_facilitation_adversary.py
Canonical corpus regression now also passes:
- python3 -m pytest -q tests/test_issue_618_harm_facilitation_corpus.py

What this PR adds

de-duplicates evaluations/adversary/corpora/harm_facilitation_200.jsonl to 200 unique prompts
adds tests/test_issue_618_harm_facilitation_corpus.py
records this verification note so the issue can close cleanly

Recommendation

Close issue #618 once this PR merges.

2.4 KiB Raw Blame History

Issue #618 Verification

Status: ✅ completed on main and finalized with canonical corpus de-duplication

Acceptance criteria check

Evidence trail

What this PR adds

Recommendation

2.4 KiB

Raw Blame History