fix: filter out image_url content for non-vision models

2025-12-06 21:18:20 +02:00
parent a14cb41745
commit 208b31a570
1 changed files with 46 additions and 1 deletions
--- a/strix/llm/llm.py
+++ b/strix/llm/llm.py
@@ -13,7 +13,7 @@ from jinja2 import (
    select_autoescape,
 )
 from litellm import ModelResponse, completion_cost
-from litellm.utils import supports_prompt_caching
+from litellm.utils import supports_prompt_caching, supports_vision

 from strix.llm.config import LLMConfig
 from strix.llm.memory_compressor import MemoryCompressor
@@ -388,10 +388,55 @@ class LLM:

        return model_matches(self.config.model_name, REASONING_EFFORT_PATTERNS)

+    def _model_supports_vision(self) -> bool:
+        if not self.config.model_name:
+            return False
+        try:
+            return supports_vision(model=self.config.model_name)
+        except Exception:  # noqa: BLE001
+            return False
+
+    def _filter_images_from_messages(
+        self, messages: list[dict[str, Any]]
+    ) -> list[dict[str, Any]]:
+        filtered_messages = []
+        for msg in messages:
+            content = msg.get("content")
+            if isinstance(content, list):
+                filtered_content = []
+                for item in content:
+                    if isinstance(item, dict):
+                        if item.get("type") == "image_url":
+                            filtered_content.append({
+                                "type": "text",
+                                "text": "[Screenshot removed - model does not support vision. "
+                                "Use view_source or execute_js to interact with the page instead.]",
+                            })
+                        else:
+                            filtered_content.append(item)
+                    else:
+                        filtered_content.append(item)
+                if filtered_content:
+                    text_parts = [
+                        item.get("text", "") if isinstance(item, dict) else str(item)
+                        for item in filtered_content
+                    ]
+                    if all(isinstance(item, dict) and item.get("type") == "text" for item in filtered_content):
+                        msg = {**msg, "content": "\n".join(text_parts)}
+                    else:
+                        msg = {**msg, "content": filtered_content}
+                else:
+                    msg = {**msg, "content": ""}
+            filtered_messages.append(msg)
+        return filtered_messages
+
    async def _make_request(
        self,
        messages: list[dict[str, Any]],
    ) -> ModelResponse:
+        if not self._model_supports_vision():
+            messages = self._filter_images_from_messages(messages)
+
        completion_args: dict[str, Any] = {
            "model": self.config.model_name,
            "messages": messages,