uniwizard/test_quality_scorer.py

"""
Tests for the Uniwizard Quality Scorer module.

Run with: python -m pytest ~/.timmy/uniwizard/test_quality_scorer.py -v
"""

import sqlite3
import tempfile
from pathlib import Path
import pytest

from quality_scorer import (
    QualityScorer,
    ResponseStatus,
    TaskType,
    BACKENDS,
    BackendScore,
    print_score_report,
    print_full_report,
    get_scorer,
    record,
    recommend,
)


class TestQualityScorer:
    """Tests for the QualityScorer class."""
    
    @pytest.fixture
    def temp_db(self):
        """Create a temporary database for testing."""
        with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:
            db_path = Path(f.name)
        yield db_path
        db_path.unlink(missing_ok=True)
    
    @pytest.fixture
    def scorer(self, temp_db):
        """Create a fresh QualityScorer with temp database."""
        return QualityScorer(db_path=temp_db)
    
    def test_init_creates_database(self, temp_db):
        """Test that initialization creates the database and tables."""
        scorer = QualityScorer(db_path=temp_db)
        assert temp_db.exists()
        
        # Verify schema
        conn = sqlite3.connect(str(temp_db))
        cursor = conn.execute(
            "SELECT name FROM sqlite_master WHERE type='table'"
        )
        tables = {row[0] for row in cursor.fetchall()}
        assert "responses" in tables
        conn.close()
    
    def test_record_response_success(self, scorer):
        """Test recording a successful response."""
        scorer.record_response(
            backend="anthropic",
            task_type=TaskType.CODE,
            status=ResponseStatus.SUCCESS,
            latency_ms=1000.0,
            ttft_ms=150.0,
            metadata={"model": "claude-3-opus"}
        )
        
        score = scorer.get_backend_score("anthropic", TaskType.CODE.value)
        assert score.total_requests == 1
        assert score.success_count == 1
        assert score.error_count == 0
    
    def test_record_response_error(self, scorer):
        """Test recording an error response."""
        scorer.record_response(
            backend="groq",
            task_type=TaskType.FAST_OPS,
            status=ResponseStatus.ERROR,
            latency_ms=500.0,
            ttft_ms=50.0
        )
        
        score = scorer.get_backend_score("groq", TaskType.FAST_OPS.value)
        assert score.total_requests == 1
        assert score.success_count == 0
        assert score.error_count == 1
    
    def test_record_response_refusal(self, scorer):
        """Test recording a refusal response."""
        scorer.record_response(
            backend="gemini",
            task_type=TaskType.CREATIVE,
            status=ResponseStatus.REFUSAL,
            latency_ms=300.0,
            ttft_ms=100.0
        )
        
        score = scorer.get_backend_score("gemini", TaskType.CREATIVE.value)
        assert score.refusal_count == 1
    
    def test_record_response_timeout(self, scorer):
        """Test recording a timeout response."""
        scorer.record_response(
            backend="openrouter",
            task_type=TaskType.RESEARCH,
            status=ResponseStatus.TIMEOUT,
            latency_ms=30000.0,
            ttft_ms=0.0
        )
        
        score = scorer.get_backend_score("openrouter", TaskType.RESEARCH.value)
        assert score.timeout_count == 1
    
    def test_record_invalid_backend(self, scorer):
        """Test that invalid backend raises ValueError."""
        with pytest.raises(ValueError, match="Unknown backend"):
            scorer.record_response(
                backend="invalid-backend",
                task_type=TaskType.CODE,
                status=ResponseStatus.SUCCESS,
                latency_ms=1000.0,
                ttft_ms=100.0
            )
    
    def test_rolling_window_pruning(self, scorer):
        """Test that old records are pruned beyond window size."""
        # Add more than ROLLING_WINDOW_SIZE records
        for i in range(110):
            scorer.record_response(
                backend="kimi-coding",
                task_type=TaskType.CODE,
                status=ResponseStatus.SUCCESS,
                latency_ms=float(i),
                ttft_ms=50.0
            )
        
        # Should only have 100 records
        stats = scorer.get_stats()
        assert stats["by_backend"]["kimi-coding"] == 100
    
    def test_recommend_backend_basic(self, scorer):
        """Test backend recommendation with sample data."""
        # Add some data for multiple backends
        for backend in ["anthropic", "groq", "gemini"]:
            for i in range(10):
                scorer.record_response(
                    backend=backend,
                    task_type=TaskType.CODE,
                    status=ResponseStatus.SUCCESS if i < 8 else ResponseStatus.ERROR,
                    latency_ms=1000.0 if backend == "anthropic" else 500.0,
                    ttft_ms=200.0
                )
        
        recommendations = scorer.recommend_backend(TaskType.CODE.value)
        
        # Should return all 7 backends
        assert len(recommendations) == 7
        
        # Top 3 should have scores
        top_3 = [b for b, s in recommendations[:3]]
        assert "groq" in top_3  # Fastest latency should win
    
    def test_recommend_backend_insufficient_data(self, scorer):
        """Test recommendation with insufficient samples."""
        # Add only 2 samples for one backend
        for i in range(2):
            scorer.record_response(
                backend="anthropic",
                task_type=TaskType.CODE,
                status=ResponseStatus.SUCCESS,
                latency_ms=1000.0,
                ttft_ms=200.0
            )
        
        recommendations = scorer.recommend_backend(TaskType.CODE.value, min_samples=5)
        
        # Should penalize low-sample backend
        anthropic_score = next(s for b, s in recommendations if b == "anthropic")
        assert anthropic_score < 50  # Penalized for low samples
    
    def test_get_all_scores(self, scorer):
        """Test getting scores for all backends."""
        # Add data for some backends
        for backend in ["anthropic", "groq"]:
            scorer.record_response(
                backend=backend,
                task_type=TaskType.REASONING,
                status=ResponseStatus.SUCCESS,
                latency_ms=1000.0,
                ttft_ms=200.0
            )
        
        all_scores = scorer.get_all_scores(TaskType.REASONING.value)
        
        assert len(all_scores) == 7
        assert all_scores["anthropic"].total_requests == 1
        assert all_scores["groq"].total_requests == 1
        assert all_scores["gemini"].total_requests == 0
    
    def test_get_task_breakdown(self, scorer):
        """Test getting per-task breakdown for a backend."""
        # Add data for different task types
        scorer.record_response(
            backend="anthropic",
            task_type=TaskType.CODE,
            status=ResponseStatus.SUCCESS,
            latency_ms=1000.0,
            ttft_ms=200.0
        )
        scorer.record_response(
            backend="anthropic",
            task_type=TaskType.REASONING,
            status=ResponseStatus.SUCCESS,
            latency_ms=2000.0,
            ttft_ms=300.0
        )
        
        breakdown = scorer.get_task_breakdown("anthropic")
        
        assert len(breakdown) == 5  # 5 task types
        assert breakdown["code"].total_requests == 1
        assert breakdown["reasoning"].total_requests == 1
    
    def test_score_calculation(self, scorer):
        """Test the composite score calculation."""
        # Add perfect responses
        for i in range(10):
            scorer.record_response(
                backend="anthropic",
                task_type=TaskType.CODE,
                status=ResponseStatus.SUCCESS,
                latency_ms=100.0,  # Very fast
                ttft_ms=50.0
            )
        
        score = scorer.get_backend_score("anthropic", TaskType.CODE.value)
        
        # Should have high score for perfect performance
        assert score.score > 90
        assert score.success_count == 10
        assert score.avg_latency_ms == 100.0
    
    def test_score_with_errors(self, scorer):
        """Test scoring with mixed success/error."""
        for i in range(5):
            scorer.record_response(
                backend="grok",
                task_type=TaskType.RESEARCH,
                status=ResponseStatus.SUCCESS,
                latency_ms=1000.0,
                ttft_ms=200.0
            )
        for i in range(5):
            scorer.record_response(
                backend="grok",
                task_type=TaskType.RESEARCH,
                status=ResponseStatus.ERROR,
                latency_ms=500.0,
                ttft_ms=100.0
            )
        
        score = scorer.get_backend_score("grok", TaskType.RESEARCH.value)
        
        assert score.total_requests == 10
        assert score.success_count == 5
        assert score.error_count == 5
        # Score: 50% success + low error penalty = ~71 with good latency
        assert 60 < score.score < 80
    
    def test_p95_calculation(self, scorer):
        """Test P95 latency calculation."""
        # Add latencies from 1ms to 100ms
        for i in range(1, 101):
            scorer.record_response(
                backend="anthropic",
                task_type=TaskType.CODE,
                status=ResponseStatus.SUCCESS,
                latency_ms=float(i),
                ttft_ms=50.0
            )
        
        score = scorer.get_backend_score("anthropic", TaskType.CODE.value)
        
        # P95 should be around 95
        assert 90 <= score.p95_latency_ms <= 100
    
    def test_clear_data(self, scorer):
        """Test clearing all data."""
        scorer.record_response(
            backend="anthropic",
            task_type=TaskType.CODE,
            status=ResponseStatus.SUCCESS,
            latency_ms=1000.0,
            ttft_ms=200.0
        )
        
        scorer.clear_data()
        
        stats = scorer.get_stats()
        assert stats["total_records"] == 0
    
    def test_string_task_type(self, scorer):
        """Test that string task types work alongside TaskType enum."""
        scorer.record_response(
            backend="openai-codex",
            task_type="code",  # String instead of enum
            status=ResponseStatus.SUCCESS,
            latency_ms=1000.0,
            ttft_ms=200.0
        )
        
        score = scorer.get_backend_score("openai-codex", "code")
        assert score.total_requests == 1


class TestConvenienceFunctions:
    """Tests for module-level convenience functions."""
    
    @pytest.fixture
    def temp_db(self):
        """Create a temporary database for testing."""
        with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:
            db_path = Path(f.name)
        
        # Patch the default path
        import quality_scorer
        original_path = quality_scorer.DEFAULT_DB_PATH
        quality_scorer.DEFAULT_DB_PATH = db_path
        
        yield db_path
        
        quality_scorer.DEFAULT_DB_PATH = original_path
        db_path.unlink(missing_ok=True)
    
    def test_get_scorer(self, temp_db):
        """Test get_scorer convenience function."""
        scorer = get_scorer()
        assert isinstance(scorer, QualityScorer)
    
    def test_record_convenience(self, temp_db):
        """Test record convenience function."""
        record(
            backend="anthropic",
            task_type="code",
            status="success",
            latency_ms=1000.0,
            ttft_ms=200.0
        )
        
        scorer = get_scorer()
        score = scorer.get_backend_score("anthropic", "code")
        assert score.total_requests == 1
    
    def test_recommend_convenience(self, temp_db):
        """Test recommend convenience function."""
        record(
            backend="anthropic",
            task_type="code",
            status="success",
            latency_ms=1000.0,
            ttft_ms=200.0
        )
        
        recs = recommend("code")
        assert len(recs) == 7
        assert recs[0][0] == "anthropic"  # Should rank first since it has data


class TestPrintFunctions:
    """Tests for print/report functions (smoke tests)."""
    
    @pytest.fixture
    def populated_scorer(self):
        """Create a scorer with demo data."""
        with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:
            db_path = Path(f.name)
        
        scorer = QualityScorer(db_path=db_path)
        
        # Add demo data for all backends
        import random
        random.seed(42)
        
        for backend in BACKENDS:
            for task in TaskType:
                for i in range(20):
                    scorer.record_response(
                        backend=backend,
                        task_type=task.value,
                        status=random.choices(
                            [ResponseStatus.SUCCESS, ResponseStatus.ERROR, 
                             ResponseStatus.REFUSAL, ResponseStatus.TIMEOUT],
                            weights=[0.85, 0.08, 0.05, 0.02]
                        )[0],
                        latency_ms=random.gauss(
                            1000 if backend in ["anthropic", "openai-codex"] else 500,
                            200
                        ),
                        ttft_ms=random.gauss(150, 50)
                    )
        
        yield scorer
        db_path.unlink(missing_ok=True)
    
    def test_print_score_report(self, populated_scorer, capsys):
        """Test print_score_report doesn't crash."""
        print_score_report(populated_scorer)
        captured = capsys.readouterr()
        assert "UNIWIZARD BACKEND QUALITY SCORES" in captured.out
        assert "anthropic" in captured.out
    
    def test_print_full_report(self, populated_scorer, capsys):
        """Test print_full_report doesn't crash."""
        print_full_report(populated_scorer)
        captured = capsys.readouterr()
        assert "PER-TASK SPECIALIZATION" in captured.out
        assert "RECOMMENDATIONS" in captured.out


class TestEdgeCases:
    """Tests for edge cases and error handling."""
    
    @pytest.fixture
    def temp_db(self):
        """Create a temporary database for testing."""
        with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:
            db_path = Path(f.name)
        yield db_path
        db_path.unlink(missing_ok=True)
    
    @pytest.fixture
    def scorer(self, temp_db):
        """Create a fresh QualityScorer with temp database."""
        return QualityScorer(db_path=temp_db)
    
    def test_empty_database(self, scorer):
        """Test behavior with empty database."""
        score = scorer.get_backend_score("anthropic", TaskType.CODE.value)
        
        assert score.total_requests == 0
        assert score.score == 0.0
        assert score.avg_latency_ms == 0.0
    
    def test_invalid_backend_in_get_score(self, scorer):
        """Test that invalid backend raises error in get_score."""
        with pytest.raises(ValueError, match="Unknown backend"):
            scorer.get_backend_score("invalid")
    
    def test_invalid_backend_in_breakdown(self, scorer):
        """Test that invalid backend raises error in get_task_breakdown."""
        with pytest.raises(ValueError, match="Unknown backend"):
            scorer.get_task_breakdown("invalid")
    
    def test_zero_latency(self, scorer):
        """Test handling of zero latency."""
        scorer.record_response(
            backend="groq",
            task_type=TaskType.FAST_OPS,
            status=ResponseStatus.SUCCESS,
            latency_ms=0.0,
            ttft_ms=0.0
        )
        
        score = scorer.get_backend_score("groq", TaskType.FAST_OPS.value)
        assert score.avg_latency_ms == 0.0
        assert score.score > 50  # Should still have decent score
    
    def test_very_high_latency(self, scorer):
        """Test handling of very high latency."""
        scorer.record_response(
            backend="openrouter",
            task_type=TaskType.RESEARCH,
            status=ResponseStatus.SUCCESS,
            latency_ms=50000.0,  # 50 seconds
            ttft_ms=5000.0
        )
        
        score = scorer.get_backend_score("openrouter", TaskType.RESEARCH.value)
        # Success rate is 100% but latency penalty brings it down
        assert score.score < 85  # Should be penalized for high latency
    
    def test_all_error_responses(self, scorer):
        """Test scoring when all responses are errors."""
        for i in range(10):
            scorer.record_response(
                backend="gemini",
                task_type=TaskType.CODE,
                status=ResponseStatus.ERROR,
                latency_ms=1000.0,
                ttft_ms=200.0
            )
        
        score = scorer.get_backend_score("gemini", TaskType.CODE.value)
        # 0% success but perfect error/refusal/timeout rate = ~35
        assert score.score < 45  # Should have low score
    
    def test_all_refusal_responses(self, scorer):
        """Test scoring when all responses are refusals."""
        for i in range(10):
            scorer.record_response(
                backend="gemini",
                task_type=TaskType.CREATIVE,
                status=ResponseStatus.REFUSAL,
                latency_ms=500.0,
                ttft_ms=100.0
            )
        
        score = scorer.get_backend_score("gemini", TaskType.CREATIVE.value)
        assert score.refusal_count == 10
        # 0% success, 0% error, 100% refusal, good latency = ~49
        assert score.score < 55  # Should be low due to refusals
    
    def test_metadata_storage(self, scorer):
        """Test that metadata is stored correctly."""
        scorer.record_response(
            backend="anthropic",
            task_type=TaskType.CODE,
            status=ResponseStatus.SUCCESS,
            latency_ms=1000.0,
            ttft_ms=200.0,
            metadata={"model": "claude-3-opus", "region": "us-east-1"}
        )
        
        # Verify in database
        conn = sqlite3.connect(str(scorer.db_path))
        row = conn.execute("SELECT metadata FROM responses LIMIT 1").fetchone()
        conn.close()
        
        import json
        metadata = json.loads(row[0])
        assert metadata["model"] == "claude-3-opus"


if __name__ == "__main__":
    pytest.main([__file__, "-v"])
[KimiClaw] Uniwizard routing modules — quality scorer, task classifier, self-grader (#107) Co-authored-by: Kimi Claw <kimi@timmytime.ai> Co-committed-by: Kimi Claw <kimi@timmytime.ai> 2026-03-30 20:15:36 +00:00			`"""`
			`Tests for the Uniwizard Quality Scorer module.`

			`Run with: python -m pytest ~/.timmy/uniwizard/test_quality_scorer.py -v`
			`"""`

			`import sqlite3`
			`import tempfile`
			`from pathlib import Path`
			`import pytest`

			`from quality_scorer import (`
			`QualityScorer,`
			`ResponseStatus,`
			`TaskType,`
			`BACKENDS,`
			`BackendScore,`
			`print_score_report,`
			`print_full_report,`
			`get_scorer,`
			`record,`
			`recommend,`
			`)`


			`class TestQualityScorer:`
			`"""Tests for the QualityScorer class."""`

			`@pytest.fixture`
			`def temp_db(self):`
			`"""Create a temporary database for testing."""`
			`with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:`
			`db_path = Path(f.name)`
			`yield db_path`
			`db_path.unlink(missing_ok=True)`

			`@pytest.fixture`
			`def scorer(self, temp_db):`
			`"""Create a fresh QualityScorer with temp database."""`
			`return QualityScorer(db_path=temp_db)`

			`def test_init_creates_database(self, temp_db):`
			`"""Test that initialization creates the database and tables."""`
			`scorer = QualityScorer(db_path=temp_db)`
			`assert temp_db.exists()`

			`# Verify schema`
			`conn = sqlite3.connect(str(temp_db))`
			`cursor = conn.execute(`
			`"SELECT name FROM sqlite_master WHERE type='table'"`
			`)`
			`tables = {row[0] for row in cursor.fetchall()}`
			`assert "responses" in tables`
			`conn.close()`

			`def test_record_response_success(self, scorer):`
			`"""Test recording a successful response."""`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=150.0,`
			`metadata={"model": "claude-3-opus"}`
			`)`

			`score = scorer.get_backend_score("anthropic", TaskType.CODE.value)`
			`assert score.total_requests == 1`
			`assert score.success_count == 1`
			`assert score.error_count == 0`

			`def test_record_response_error(self, scorer):`
			`"""Test recording an error response."""`
			`scorer.record_response(`
			`backend="groq",`
			`task_type=TaskType.FAST_OPS,`
			`status=ResponseStatus.ERROR,`
			`latency_ms=500.0,`
			`ttft_ms=50.0`
			`)`

			`score = scorer.get_backend_score("groq", TaskType.FAST_OPS.value)`
			`assert score.total_requests == 1`
			`assert score.success_count == 0`
			`assert score.error_count == 1`

			`def test_record_response_refusal(self, scorer):`
			`"""Test recording a refusal response."""`
			`scorer.record_response(`
			`backend="gemini",`
			`task_type=TaskType.CREATIVE,`
			`status=ResponseStatus.REFUSAL,`
			`latency_ms=300.0,`
			`ttft_ms=100.0`
			`)`

			`score = scorer.get_backend_score("gemini", TaskType.CREATIVE.value)`
			`assert score.refusal_count == 1`

			`def test_record_response_timeout(self, scorer):`
			`"""Test recording a timeout response."""`
			`scorer.record_response(`
			`backend="openrouter",`
			`task_type=TaskType.RESEARCH,`
			`status=ResponseStatus.TIMEOUT,`
			`latency_ms=30000.0,`
			`ttft_ms=0.0`
			`)`

			`score = scorer.get_backend_score("openrouter", TaskType.RESEARCH.value)`
			`assert score.timeout_count == 1`

			`def test_record_invalid_backend(self, scorer):`
			`"""Test that invalid backend raises ValueError."""`
			`with pytest.raises(ValueError, match="Unknown backend"):`
			`scorer.record_response(`
			`backend="invalid-backend",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=100.0`
			`)`

			`def test_rolling_window_pruning(self, scorer):`
			`"""Test that old records are pruned beyond window size."""`
			`# Add more than ROLLING_WINDOW_SIZE records`
			`for i in range(110):`
			`scorer.record_response(`
			`backend="kimi-coding",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=float(i),`
			`ttft_ms=50.0`
			`)`

			`# Should only have 100 records`
			`stats = scorer.get_stats()`
			`assert stats["by_backend"]["kimi-coding"] == 100`

			`def test_recommend_backend_basic(self, scorer):`
			`"""Test backend recommendation with sample data."""`
			`# Add some data for multiple backends`
			`for backend in ["anthropic", "groq", "gemini"]:`
			`for i in range(10):`
			`scorer.record_response(`
			`backend=backend,`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS if i < 8 else ResponseStatus.ERROR,`
			`latency_ms=1000.0 if backend == "anthropic" else 500.0,`
			`ttft_ms=200.0`
			`)`

			`recommendations = scorer.recommend_backend(TaskType.CODE.value)`

			`# Should return all 7 backends`
			`assert len(recommendations) == 7`

			`# Top 3 should have scores`
			`top_3 = [b for b, s in recommendations[:3]]`
			`assert "groq" in top_3 # Fastest latency should win`

			`def test_recommend_backend_insufficient_data(self, scorer):`
			`"""Test recommendation with insufficient samples."""`
			`# Add only 2 samples for one backend`
			`for i in range(2):`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`recommendations = scorer.recommend_backend(TaskType.CODE.value, min_samples=5)`

			`# Should penalize low-sample backend`
			`anthropic_score = next(s for b, s in recommendations if b == "anthropic")`
			`assert anthropic_score < 50 # Penalized for low samples`

			`def test_get_all_scores(self, scorer):`
			`"""Test getting scores for all backends."""`
			`# Add data for some backends`
			`for backend in ["anthropic", "groq"]:`
			`scorer.record_response(`
			`backend=backend,`
			`task_type=TaskType.REASONING,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`all_scores = scorer.get_all_scores(TaskType.REASONING.value)`

			`assert len(all_scores) == 7`
			`assert all_scores["anthropic"].total_requests == 1`
			`assert all_scores["groq"].total_requests == 1`
			`assert all_scores["gemini"].total_requests == 0`

			`def test_get_task_breakdown(self, scorer):`
			`"""Test getting per-task breakdown for a backend."""`
			`# Add data for different task types`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.REASONING,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=2000.0,`
			`ttft_ms=300.0`
			`)`

			`breakdown = scorer.get_task_breakdown("anthropic")`

			`assert len(breakdown) == 5 # 5 task types`
			`assert breakdown["code"].total_requests == 1`
			`assert breakdown["reasoning"].total_requests == 1`

			`def test_score_calculation(self, scorer):`
			`"""Test the composite score calculation."""`
			`# Add perfect responses`
			`for i in range(10):`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=100.0, # Very fast`
			`ttft_ms=50.0`
			`)`

			`score = scorer.get_backend_score("anthropic", TaskType.CODE.value)`

			`# Should have high score for perfect performance`
			`assert score.score > 90`
			`assert score.success_count == 10`
			`assert score.avg_latency_ms == 100.0`

			`def test_score_with_errors(self, scorer):`
			`"""Test scoring with mixed success/error."""`
			`for i in range(5):`
			`scorer.record_response(`
			`backend="grok",`
			`task_type=TaskType.RESEARCH,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`
			`for i in range(5):`
			`scorer.record_response(`
			`backend="grok",`
			`task_type=TaskType.RESEARCH,`
			`status=ResponseStatus.ERROR,`
			`latency_ms=500.0,`
			`ttft_ms=100.0`
			`)`

			`score = scorer.get_backend_score("grok", TaskType.RESEARCH.value)`

			`assert score.total_requests == 10`
			`assert score.success_count == 5`
			`assert score.error_count == 5`
			`# Score: 50% success + low error penalty = ~71 with good latency`
			`assert 60 < score.score < 80`

			`def test_p95_calculation(self, scorer):`
			`"""Test P95 latency calculation."""`
			`# Add latencies from 1ms to 100ms`
			`for i in range(1, 101):`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=float(i),`
			`ttft_ms=50.0`
			`)`

			`score = scorer.get_backend_score("anthropic", TaskType.CODE.value)`

			`# P95 should be around 95`
			`assert 90 <= score.p95_latency_ms <= 100`

			`def test_clear_data(self, scorer):`
			`"""Test clearing all data."""`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`scorer.clear_data()`

			`stats = scorer.get_stats()`
			`assert stats["total_records"] == 0`

			`def test_string_task_type(self, scorer):`
			`"""Test that string task types work alongside TaskType enum."""`
			`scorer.record_response(`
			`backend="openai-codex",`
			`task_type="code", # String instead of enum`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`score = scorer.get_backend_score("openai-codex", "code")`
			`assert score.total_requests == 1`


			`class TestConvenienceFunctions:`
			`"""Tests for module-level convenience functions."""`

			`@pytest.fixture`
			`def temp_db(self):`
			`"""Create a temporary database for testing."""`
			`with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:`
			`db_path = Path(f.name)`

			`# Patch the default path`
			`import quality_scorer`
			`original_path = quality_scorer.DEFAULT_DB_PATH`
			`quality_scorer.DEFAULT_DB_PATH = db_path`

			`yield db_path`

			`quality_scorer.DEFAULT_DB_PATH = original_path`
			`db_path.unlink(missing_ok=True)`

			`def test_get_scorer(self, temp_db):`
			`"""Test get_scorer convenience function."""`
			`scorer = get_scorer()`
			`assert isinstance(scorer, QualityScorer)`

			`def test_record_convenience(self, temp_db):`
			`"""Test record convenience function."""`
			`record(`
			`backend="anthropic",`
			`task_type="code",`
			`status="success",`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`scorer = get_scorer()`
			`score = scorer.get_backend_score("anthropic", "code")`
			`assert score.total_requests == 1`

			`def test_recommend_convenience(self, temp_db):`
			`"""Test recommend convenience function."""`
			`record(`
			`backend="anthropic",`
			`task_type="code",`
			`status="success",`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`recs = recommend("code")`
			`assert len(recs) == 7`
			`assert recs[0][0] == "anthropic" # Should rank first since it has data`


			`class TestPrintFunctions:`
			`"""Tests for print/report functions (smoke tests)."""`

			`@pytest.fixture`
			`def populated_scorer(self):`
			`"""Create a scorer with demo data."""`
			`with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:`
			`db_path = Path(f.name)`

			`scorer = QualityScorer(db_path=db_path)`

			`# Add demo data for all backends`
			`import random`
			`random.seed(42)`

			`for backend in BACKENDS:`
			`for task in TaskType:`
			`for i in range(20):`
			`scorer.record_response(`
			`backend=backend,`
			`task_type=task.value,`
			`status=random.choices(`
			`[ResponseStatus.SUCCESS, ResponseStatus.ERROR,`
			`ResponseStatus.REFUSAL, ResponseStatus.TIMEOUT],`
			`weights=[0.85, 0.08, 0.05, 0.02]`
			`)[0],`
			`latency_ms=random.gauss(`
			`1000 if backend in ["anthropic", "openai-codex"] else 500,`
			`200`
			`),`
			`ttft_ms=random.gauss(150, 50)`
			`)`

			`yield scorer`
			`db_path.unlink(missing_ok=True)`

			`def test_print_score_report(self, populated_scorer, capsys):`
			`"""Test print_score_report doesn't crash."""`
			`print_score_report(populated_scorer)`
			`captured = capsys.readouterr()`
			`assert "UNIWIZARD BACKEND QUALITY SCORES" in captured.out`
			`assert "anthropic" in captured.out`

			`def test_print_full_report(self, populated_scorer, capsys):`
			`"""Test print_full_report doesn't crash."""`
			`print_full_report(populated_scorer)`
			`captured = capsys.readouterr()`
			`assert "PER-TASK SPECIALIZATION" in captured.out`
			`assert "RECOMMENDATIONS" in captured.out`


			`class TestEdgeCases:`
			`"""Tests for edge cases and error handling."""`

			`@pytest.fixture`
			`def temp_db(self):`
			`"""Create a temporary database for testing."""`
			`with tempfile.NamedTemporaryFile(suffix=".db", delete=False) as f:`
			`db_path = Path(f.name)`
			`yield db_path`
			`db_path.unlink(missing_ok=True)`

			`@pytest.fixture`
			`def scorer(self, temp_db):`
			`"""Create a fresh QualityScorer with temp database."""`
			`return QualityScorer(db_path=temp_db)`

			`def test_empty_database(self, scorer):`
			`"""Test behavior with empty database."""`
			`score = scorer.get_backend_score("anthropic", TaskType.CODE.value)`

			`assert score.total_requests == 0`
			`assert score.score == 0.0`
			`assert score.avg_latency_ms == 0.0`

			`def test_invalid_backend_in_get_score(self, scorer):`
			`"""Test that invalid backend raises error in get_score."""`
			`with pytest.raises(ValueError, match="Unknown backend"):`
			`scorer.get_backend_score("invalid")`

			`def test_invalid_backend_in_breakdown(self, scorer):`
			`"""Test that invalid backend raises error in get_task_breakdown."""`
			`with pytest.raises(ValueError, match="Unknown backend"):`
			`scorer.get_task_breakdown("invalid")`

			`def test_zero_latency(self, scorer):`
			`"""Test handling of zero latency."""`
			`scorer.record_response(`
			`backend="groq",`
			`task_type=TaskType.FAST_OPS,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=0.0,`
			`ttft_ms=0.0`
			`)`

			`score = scorer.get_backend_score("groq", TaskType.FAST_OPS.value)`
			`assert score.avg_latency_ms == 0.0`
			`assert score.score > 50 # Should still have decent score`

			`def test_very_high_latency(self, scorer):`
			`"""Test handling of very high latency."""`
			`scorer.record_response(`
			`backend="openrouter",`
			`task_type=TaskType.RESEARCH,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=50000.0, # 50 seconds`
			`ttft_ms=5000.0`
			`)`

			`score = scorer.get_backend_score("openrouter", TaskType.RESEARCH.value)`
			`# Success rate is 100% but latency penalty brings it down`
			`assert score.score < 85 # Should be penalized for high latency`

			`def test_all_error_responses(self, scorer):`
			`"""Test scoring when all responses are errors."""`
			`for i in range(10):`
			`scorer.record_response(`
			`backend="gemini",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.ERROR,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0`
			`)`

			`score = scorer.get_backend_score("gemini", TaskType.CODE.value)`
			`# 0% success but perfect error/refusal/timeout rate = ~35`
			`assert score.score < 45 # Should have low score`

			`def test_all_refusal_responses(self, scorer):`
			`"""Test scoring when all responses are refusals."""`
			`for i in range(10):`
			`scorer.record_response(`
			`backend="gemini",`
			`task_type=TaskType.CREATIVE,`
			`status=ResponseStatus.REFUSAL,`
			`latency_ms=500.0,`
			`ttft_ms=100.0`
			`)`

			`score = scorer.get_backend_score("gemini", TaskType.CREATIVE.value)`
			`assert score.refusal_count == 10`
			`# 0% success, 0% error, 100% refusal, good latency = ~49`
			`assert score.score < 55 # Should be low due to refusals`

			`def test_metadata_storage(self, scorer):`
			`"""Test that metadata is stored correctly."""`
			`scorer.record_response(`
			`backend="anthropic",`
			`task_type=TaskType.CODE,`
			`status=ResponseStatus.SUCCESS,`
			`latency_ms=1000.0,`
			`ttft_ms=200.0,`
			`metadata={"model": "claude-3-opus", "region": "us-east-1"}`
			`)`

			`# Verify in database`
			`conn = sqlite3.connect(str(scorer.db_path))`
			`row = conn.execute("SELECT metadata FROM responses LIMIT 1").fetchone()`
			`conn.close()`

			`import json`
			`metadata = json.loads(row[0])`
			`assert metadata["model"] == "claude-3-opus"`


			`if __name__ == "__main__":`
			`pytest.main([__file__, "-v"])`