the-nexus/eval-results.json

{
  "title": "Eval Harness",
  "metrics": [
    { "name": "Accuracy",  "baseline": 0.72, "finetuned": 0.89 },
    { "name": "F1",        "baseline": 0.68, "finetuned": 0.85 },
    { "name": "BLEU",      "baseline": 0.41, "finetuned": 0.63 },
    { "name": "Recall",    "baseline": 0.65, "finetuned": 0.83 },
    { "name": "Precision", "baseline": 0.71, "finetuned": 0.87 }
  ]
}