[PIPELINE] Reasoning-DPO — use Z3 as truth oracle for DPO pair generation #36

New Issue

perplexity · 2026-03-27T22:48:32Z

perplexity commented

2026-03-27 22:48:32 +00:00

Source

"Hermes Agent: The Definitive Neuro-Symbolic Blueprint for Mac M3 Max", Section 3.3 + 5.2.

What

Extend the existing DPO pipeline to generate "Reasoning-DPO" pairs using Z3 as an objective truth oracle instead of relying solely on human preference or two-pass critique.

How it works

For a given reasoning prompt, the LLM generates multiple candidate reasoning paths
Each path is formalized into Z3 SMT-LIB and verified
Paths that Z3 verifies as correct → "Chosen"
Paths that Z3 finds logically invalid (even if superficially plausible) → "Rejected"
These pairs feed the existing DPO training pipeline

Why this matters

Standard DPO uses subjective human preference. Reasoning-DPO uses mathematical truth as the oracle. This "hard-codes" logical consistency into the model's weights — the model learns to reason correctly, not just to sound correct.

Acceptance

Script that generates reasoning prompts, collects multiple LLM outputs, verifies via Z3, and emits DPO pairs
Integrates with existing ~/.timmy/training-data/dpo-pairs/ output format
At least 50 reasoning-DPO pairs generated from a test corpus

Dependencies

Requires Truth Engine v0 (Z3 tool integration) to be functional first.
Extends existing DPO pipeline from issue #3 / #13.

## Source "Hermes Agent: The Definitive Neuro-Symbolic Blueprint for Mac M3 Max", Section 3.3 + 5.2. ## What Extend the existing DPO pipeline to generate "Reasoning-DPO" pairs using Z3 as an objective truth oracle instead of relying solely on human preference or two-pass critique. ### How it works 1. For a given reasoning prompt, the LLM generates multiple candidate reasoning paths 2. Each path is formalized into Z3 SMT-LIB and verified 3. Paths that Z3 verifies as correct → "Chosen" 4. Paths that Z3 finds logically invalid (even if superficially plausible) → "Rejected" 5. These pairs feed the existing DPO training pipeline ### Why this matters Standard DPO uses subjective human preference. Reasoning-DPO uses mathematical truth as the oracle. This "hard-codes" logical consistency into the model's weights — the model learns to reason correctly, not just to sound correct. ## Acceptance - Script that generates reasoning prompts, collects multiple LLM outputs, verifies via Z3, and emits DPO pairs - Integrates with existing `~/.timmy/training-data/dpo-pairs/` output format - At least 50 reasoning-DPO pairs generated from a test corpus ## Dependencies - Requires Truth Engine v0 (Z3 tool integration) to be functional first. - Extends existing DPO pipeline from issue #3 / #13.

Timmy was assigned by Rockachopa

2026-03-28 03:52:19 +00:00

Timmy referenced this issue

2026-03-28 04:45:18 +00:00

[PIPELINE] Reasoning-DPO — use Z3 as truth oracle for DPO pair generation #37

Timmy commented

2026-03-28 04:53:02 +00:00

Closing during the 2026-03-28 backlog burn-down.

Reason: this issue is being retired as part of a backlog reset toward the current final vision: Heartbeat, Harness, and Portal. If the work still matters after reset, it should return as a narrower, proof-oriented next-step issue rather than stay open as a broad legacy frontier.

Closing during the 2026-03-28 backlog burn-down. Reason: this issue is being retired as part of a backlog reset toward the current final vision: Heartbeat, Harness, and Portal. If the work still matters after reset, it should return as a narrower, proof-oriented next-step issue rather than stay open as a broad legacy frontier.

Timmy closed this issue

2026-03-28 04:53:02 +00:00

Timmy referenced this issue

2026-03-29 00:03:08 +00:00

[HARNESS] Z3 Crucible as a timmy-config sidecar (no Hermes fork) #86

allegro referenced this issue

2026-04-04 12:05:29 +00:00

[RETRO] Burn Down Night Retrospective -- 2026-04-04 #114

Sign in to join this conversation.

Branches Tags

main

timmy/force-multipliers-541-542

feat/bezalel-builder-wizard

docs/automation-audit-20260404

gemini/pass-5-handoff

gemini/pass-4-docs-audit

gemini/pass-4-nexus-bridge

gemini/pass-4-memory-injection

gemini/pass-4-automerge

gemini/pass-3-metrics

gemini/pass-3-decomposition

gemini/pass-3-resurrection

gemini/pass-3-quality-gate

gemini/pass-2-docs

gemini/pass-2-audit

gemini/pass-2-fallback

gemini/pass-2-continuity

gemini/force-multiplier-5

gemini/force-multiplier-4

gemini/force-multiplier-3

gemini/force-multiplier-2

gemini/force-multiplier-1

gemini/issue-246

ezra/lazarus-cell-spec-268

allegro/m2-commit-or-abort-845

gemini/pass-2-status

allegro/m1-stop-protocol-842

gemini/issue-182

master

feat/architecture-linter-provenance

feat/adr-system-provenance

sonnet/smoke-test-sonnet

sonnet/issue-260

docs/architecture-kt-unified-schema

feat/frontier-local-layer-4-mesh

timmy/code-claw-docs

claw-code/issue-232

feat/frontier-local-layer-5-immortality

feat/frontier-local-layer-3

feature/workforce-manager

feat/frontier-local-agenda-v2

feat/cost-saving-guide

timmy/gemini-loop-hardening

timmy/orchestrator-kimi-heartbeat-status

timmy/orchestrator-kimi-visibility

timmy/issue-186-import-bridge

codex/workflow-pr-review

feat/sovereign-identity-phase-23

feat/sovereign-evolution-redistribution

gemini/orchestration-hardening

gemini/audit-bugfixes

timmy/issue-86-z3-crucible

feat/allegro-identity-fix

gemini/issue-75

gemini/issue-76

gemini/issue-78

review/move-last-two-main-commits-20260328-000322

gemini/issue-50

backup/main-before-reset-20260328-000322

gemini/issue-52

gemini/issue-54

fix/mcp-morrowind-tool-naming

gemini/issue-59

gemini/issue-60

gemini/issue-61

gemini/issue-62

gemini/issue-63

gemini/issue-41

gemini/issue-42

gemini/issue-43

codex/hermes-venv-runner

codex/twitter-archive-orchestration

codex/cleanup-pass-2

codex/cleanup-boundaries

gemini/issue-8

gemini/issue-20

gemini/issue-21

gemini/issue-22

gemini/issue-9

gemini/issue-10

gemini/issue-11

gemini/issue-12

gemini/issue-13

manus/dpo-data-pipeline

feature/dpo-training-pipeline

2 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Timmy_Foundation/timmy-config#36