fix: pass max_tokens to Ollama provider in cascade router (#622)

Co-authored-by: Kimi Agent <kimi@timmy.local> Co-committed-by: Kimi Agent <kimi@timmy.local>
2026-03-20 16:27:24 -04:00
parent 2c217104db
commit 84302aedac
1 changed files with 7 additions and 3 deletions
--- a/src/infrastructure/router/cascade.py
+++ b/src/infrastructure/router/cascade.py
@@ -564,6 +564,7 @@ class CascadeRouter:
                messages=messages,
                model=model or provider.get_default_model(),
                temperature=temperature,
+                max_tokens=max_tokens,
                content_type=content_type,
            )
        elif provider.type == "openai":
@@ -604,6 +605,7 @@ class CascadeRouter:
        messages: list[dict],
        model: str,
        temperature: float,
+        max_tokens: int | None = None,
        content_type: ContentType = ContentType.TEXT,
    ) -> dict:
        """Call Ollama API with multi-modal support."""
@@ -614,13 +616,15 @@ class CascadeRouter:
        # Transform messages for Ollama format (including images)
        transformed_messages = self._transform_messages_for_ollama(messages)

+        options = {"temperature": temperature}
+        if max_tokens:
+            options["num_predict"] = max_tokens
+
        payload = {
            "model": model,
            "messages": transformed_messages,
            "stream": False,
-            "options": {
-                "temperature": temperature,
-            },
+            "options": options,
        }

        timeout = aiohttp.ClientTimeout(total=self.config.timeout_seconds)