test: Add auto_select tests (#97 )

feat: Add auto_select.py (#97 )
2026-04-17 05:29:10 +00:00 · 2026-04-17 05:29:08 +00:00
2 changed files with 385 additions and 0 deletions
--- a/tests/test_auto_select.py
+++ b/tests/test_auto_select.py
@@ -0,0 +1,108 @@
 """
 Tests for TurboQuant auto-select module.
 """
 import pytest
 from turboquant.auto_select import (
    select_preset,
    PRESETS,
    QUALITY_ORDER,
    SelectionResult,
 )
 class TestSelectPreset:
    """Test preset selection logic."""
    def test_high_overhead_selects_best(self):
        """8+ GB overhead should select turboquant_k8v4."""
        result = select_preset(available_gb=20, model_size_gb=10)
        assert result.preset == "turboquant_k8v4"
        assert result.quality == "best"
    def test_medium_overhead_selects_good(self):
        """4-8 GB overhead should select turboquant_4bit_nc."""
        result = select_preset(available_gb=12, model_size_gb=6)
        assert result.preset == "turboquant_4bit_nc"
        assert result.quality == "good"
    def test_low_overhead_selects_usable(self):
        """2-4 GB overhead should select turboquant_3bit_nc."""
        result = select_preset(available_gb=8, model_size_gb=5)
        assert result.preset == "turboquant_3bit_nc"
        assert result.quality == "usable"
    def test_minimal_overhead_selects_fallback(self):
        """<2 GB overhead should select q4_0 fallback."""
        result = select_preset(available_gb=5, model_size_gb=4)
        assert result.preset == "q4_0"
        assert result.quality == "basic"
    def test_negative_overhead_selects_fallback(self):
        """Negative overhead (not enough memory) should select fallback."""
        result = select_preset(available_gb=3, model_size_gb=10)
        assert result.preset == "q4_0"
        assert result.overhead_gb < 0
    def test_vllm_requirement_filters(self):
        """require_vllm should only select vLLM-compatible presets."""
        result = select_preset(available_gb=5, model_size_gb=4, require_vllm=True)
        # q4_0 is not vLLM compatible, should still be selected as fallback
        # but the logic should try vLLM-compatible first
        assert result.preset in ["turboquant_k8v4", "turboquant_4bit_nc", "turboquant_3bit_nc", "q4_0"]
 class TestSelectionResult:
    """Test SelectionResult dataclass."""
    def test_to_dict(self):
        result = SelectionResult(
            preset="turboquant_k8v4",
            reason="test",
            overhead_gb=10.0,
            quality="best",
            compression_ratio=2.6,
            vllm_compatible=True,
        )
        d = result.to_dict()
        assert d["preset"] == "turboquant_k8v4"
        assert d["compression_ratio"] == 2.6
 class TestPresets:
    """Test preset definitions."""
    def test_all_presets_have_required_fields(self):
        """All presets should have required fields."""
        for name, preset in PRESETS.items():
            assert "name" in preset
            assert "description" in preset
            assert "min_overhead_gb" in preset
            assert "compression_ratio" in preset
            assert "quality" in preset
            assert "vllm_compatible" in preset
    def test_quality_order_matches_presets(self):
        """Quality order should include all presets."""
        for name in QUALITY_ORDER:
            assert name in PRESETS
 class TestBoundaryConditions:
    """Test boundary conditions."""
    def test_exact_threshold(self):
        """Exactly at threshold should select that preset."""
        # 8 GB overhead exactly
        result = select_preset(available_gb=12, model_size_gb=4)
        assert result.preset == "turboquant_k8v4"
    def test_just_below_threshold(self):
        """Just below threshold should select next tier."""
        # 7.9 GB overhead
        result = select_preset(available_gb=11.9, model_size_gb=4)
        assert result.preset == "turboquant_4bit_nc"
 if __name__ == "__main__":
    pytest.main([__file__, "-v"])
--- a/turboquant/auto_select.py
+++ b/turboquant/auto_select.py
@@ -0,0 +1,277 @@
 #!/usr/bin/env python3
 """
 TurboQuant Auto-Select — Choose optimal preset based on available memory.
 Detects system memory and selects the best TurboQuant preset for
 KV cache compression based on overhead after loading the model.
 """
 import logging
 import os
 import platform
 from dataclasses import dataclass
 from typing import Optional
 logger = logging.getLogger(__name__)
 # Preset definitions with quality/speed tradeoffs
 PRESETS = {
    "turboquant_k8v4": {
        "name": "TurboQuant K8V4",
        "description": "Best quality, 2.6x compression",
        "min_overhead_gb": 8,
        "compression_ratio": 2.6,
        "quality": "best",
        "vllm_compatible": True,
    },
    "turboquant_4bit_nc": {
        "name": "TurboQuant 4-bit NC",
        "description": "Good quality, 3.8x compression",
        "min_overhead_gb": 4,
        "compression_ratio": 3.8,
        "quality": "good",
        "vllm_compatible": True,
    },
    "turboquant_3bit_nc": {
        "name": "TurboQuant 3-bit NC",
        "description": "Usable quality, 4.9x compression",
        "min_overhead_gb": 2,
        "compression_ratio": 4.9,
        "quality": "usable",
        "vllm_compatible": True,
    },
    "q4_0": {
        "name": "Q4_0 GGUF",
        "description": "GGUF fallback, no vLLM",
        "min_overhead_gb": 0,
        "compression_ratio": 4.0,
        "quality": "basic",
        "vllm_compatible": False,
    },
 }
 # Quality order (best to worst)
 QUALITY_ORDER = ["turboquant_k8v4", "turboquant_4bit_nc", "turboquant_3bit_nc", "q4_0"]
@dataclass
 class SystemInfo:
    """System memory information."""
    total_gb: float
    available_gb: float
    gpu_memory_gb: Optional[float] = None
    @classmethod
    def detect(cls) -> "SystemInfo":
        """Detect system memory."""
        import psutil
        mem = psutil.virtual_memory()
        total_gb = mem.total / (1024**3)
        available_gb = mem.available / (1024**3)
        # Try to detect GPU memory
        gpu_gb = None
        try:
            import subprocess
            result = subprocess.run(
                ["nvidia-smi", "--query-gpu=memory.total", "--format=csv,noheader,nounits"],
                capture_output=True, text=True, timeout=5
            )
            if result.returncode == 0:
                gpu_mb = int(result.stdout.strip().split("\n")[0])
                gpu_gb = gpu_mb / 1024
        except (FileNotFoundError, ValueError, subprocess.TimeoutExpired):
            pass
        return cls(
            total_gb=round(total_gb, 1),
            available_gb=round(available_gb, 1),
            gpu_memory_gb=round(gpu_gb, 1) if gpu_gb else None,
        )
@dataclass
 class SelectionResult:
    """Result of preset selection."""
    preset: str
    reason: str
    overhead_gb: float
    quality: str
    compression_ratio: float
    vllm_compatible: bool
    def to_dict(self) -> dict:
        return {
            "preset": self.preset,
            "reason": self.reason,
            "overhead_gb": self.overhead_gb,
            "quality": self.quality,
            "compression_ratio": self.compression_ratio,
            "vllm_compatible": self.vllm_compatible,
        }
 def select_preset(
    available_gb: float,
    model_size_gb: float,
    prefer_quality: bool = True,
    require_vllm: bool = False,
 ) -> SelectionResult:
    """
    Select the best TurboQuant preset based on available memory.
    Args:
        available_gb: Available system memory in GB
        model_size_gb: Model size in GB
        prefer_quality: If True, prefer higher quality presets
        require_vllm: If True, only select vLLM-compatible presets
    Returns:
        SelectionResult with chosen preset and reasoning
    """
    overhead_gb = available_gb - model_size_gb
    if overhead_gb < 0:
        # Not enough memory for model
        logger.warning(
            "Insufficient memory: need %.1f GB, have %.1f GB available",
            model_size_gb, available_gb
        )
        return SelectionResult(
            preset="q4_0",
            reason=f"Insufficient memory ({overhead_gb:.1f} GB deficit), using GGUF fallback",
            overhead_gb=overhead_gb,
            quality="basic",
            compression_ratio=4.0,
            vllm_compatible=False,
        )
    # Select preset based on overhead
    for preset_name in QUALITY_ORDER:
        preset = PRESETS[preset_name]
        # Skip if vLLM required but not compatible
        if require_vllm and not preset["vllm_compatible"]:
            continue
        if overhead_gb >= preset["min_overhead_gb"]:
            reason = f"Overhead {overhead_gb:.1f} GB >= {preset['min_overhead_gb']} GB required for {preset['name']}"
            logger.info("Selected preset: %s — %s", preset_name, reason)
            return SelectionResult(
                preset=preset_name,
                reason=reason,
                overhead_gb=overhead_gb,
                quality=preset["quality"],
                compression_ratio=preset["compression_ratio"],
                vllm_compatible=preset["vllm_compatible"],
            )
    # Fallback
    return SelectionResult(
        preset="q4_0",
        reason=f"Overhead {overhead_gb:.1f} GB too low for TurboQuant, using GGUF fallback",
        overhead_gb=overhead_gb,
        quality="basic",
        compression_ratio=4.0,
        vllm_compatible=False,
    )
 def auto_select(
    model_size_gb: float,
    config_override: Optional[str] = None,
    prefer_quality: bool = True,
    require_vllm: bool = False,
 ) -> SelectionResult:
    """
    Auto-select preset based on system detection.
    Args:
        model_size_gb: Model size in GB
        config_override: Optional preset override from config
        prefer_quality: Prefer higher quality presets
        require_vllm: Require vLLM compatibility
    Returns:
        SelectionResult
    """
    # Check for config override
    if config_override:
        if config_override in PRESETS:
            preset = PRESETS[config_override]
            logger.info("Using config override: %s", config_override)
            return SelectionResult(
                preset=config_override,
                reason=f"Config override: {preset['name']}",
                overhead_gb=0,  # Unknown without system detection
                quality=preset["quality"],
                compression_ratio=preset["compression_ratio"],
                vllm_compatible=preset["vllm_compatible"],
            )
        else:
            logger.warning("Unknown preset in config: %s, falling back to auto-select", config_override)
    # Detect system
    sys_info = SystemInfo.detect()
    logger.info(
        "System: %.1f GB total, %.1f GB available, model: %.1f GB",
        sys_info.total_gb, sys_info.available_gb, model_size_gb
    )
    # Select preset
    return select_preset(
        available_gb=sys_info.available_gb,
        model_size_gb=model_size_gb,
        prefer_quality=prefer_quality,
        require_vllm=require_vllm,
    )
 def get_preset_info(preset_name: str) -> Optional[dict]:
    """Get information about a preset."""
    return PRESETS.get(preset_name)
 def list_presets() -> dict:
    """List all available presets."""
    return PRESETS.copy()
 # CLI interface
 if __name__ == "__main__":
    import argparse
    import json
    parser = argparse.ArgumentParser(description="TurboQuant Auto-Select")
    parser.add_argument("--model-size", type=float, required=True, help="Model size in GB")
    parser.add_argument("--preset", help="Config override preset")
    parser.add_argument("--prefer-quality", action="store_true", default=True, help="Prefer quality")
    parser.add_argument("--require-vllm", action="store_true", help="Require vLLM compatibility")
    parser.add_argument("--json", action="store_true", help="Output as JSON")
    parser.add_argument("--list", action="store_true", help="List all presets")
    args = parser.parse_args()
    if args.list:
        print("Available presets:")
        for name, info in PRESETS.items():
            vllm = "✓" if info["vllm_compatible"] else "✗"
            print(f"  {name:20} {info['quality']:8} {info['compression_ratio']}x  vLLM:{vllm}  {info['description']}")
    else:
        result = auto_select(
            model_size_gb=args.model_size,
            config_override=args.preset,
            prefer_quality=args.prefer_quality,
            require_vllm=args.require_vllm,
        )
        if args.json:
            print(json.dumps(result.to_dict(), indent=2))
        else:
            print(f"Selected: {result.preset}")
            print(f"Reason: {result.reason}")
            print(f"Quality: {result.quality}")
            print(f"Compression: {result.compression_ratio}x")
            print(f"vLLM compatible: {result.vllm_compatible}")
Author	SHA1	Message	Date
Alexander Whitestone	1607216781	test: Add auto_select tests (#97 ) All checks were successful Smoke Test / smoke (pull_request) Successful in 16s Details	2026-04-17 05:29:10 +00:00
Alexander Whitestone	a7682c9811	feat: Add auto_select.py (#97 )	2026-04-17 05:29:08 +00:00