fix: add CLI voice beep toggle

Closes #952
2026-04-22 11:32:33 -04:00
6 changed files with 170 additions and 261 deletions
--- a/cli.py
+++ b/cli.py
@@ -589,7 +589,6 @@ from tools.terminal_tool import set_sudo_password_callback, set_approval_callbac
 from tools.skills_tool import set_secret_capture_callback
 from hermes_cli.callbacks import prompt_for_secret
 from tools.browser_tool import _emergency_cleanup_all_sessions as _cleanup_all_browsers
-from utils import repair_and_load_json

 # Guard to prevent cleanup from running multiple times on exit
 _cleanup_done = False
@@ -3570,11 +3569,7 @@ class HermesCLI:
                result_json = _asyncio.run(
                    vision_analyze_tool(image_url=str(img_path), user_prompt=analysis_prompt)
                )
-                result = repair_and_load_json(
-                    result_json,
-                    default={},
-                    context="cli_image_analysis",
-                ) if isinstance(result_json, str) else {}
+                result = _json.loads(result_json)
                if result.get("success"):
                    description = result.get("analysis", "")
                    enriched_parts.append(
@@ -4965,14 +4960,7 @@ class HermesCLI:
        from tools.cronjob_tools import cronjob as cronjob_tool

        def _cron_api(**kwargs):
-            result = repair_and_load_json(
-                cronjob_tool(**kwargs),
-                default=None,
-                context="cli_cron_command",
-            )
-            if isinstance(result, dict):
-                return result
-            return {"success": False, "error": "Invalid JSON from cronjob tool"}
+            return json.loads(cronjob_tool(**kwargs))

        def _normalize_skills(values):
            normalized = []
@@ -6864,11 +6852,12 @@ class HermesCLI:
            self._voice_stop_and_transcribe()

        # Audio cue: single beep BEFORE starting stream (avoid CoreAudio conflict)
-        try:
-            from tools.voice_mode import play_beep
-            play_beep(frequency=880, count=1)
-        except Exception:
-            pass
+        if self._voice_beeps_enabled():
+            try:
+                from tools.voice_mode import play_beep
+                play_beep(frequency=880, count=1)
+            except Exception:
+                pass

        try:
            self._voice_recorder.start(on_silence_stop=_on_silence)
@@ -6916,11 +6905,12 @@ class HermesCLI:
            wav_path = self._voice_recorder.stop()

            # Audio cue: double beep after stream stopped (no CoreAudio conflict)
-            try:
-                from tools.voice_mode import play_beep
-                play_beep(frequency=660, count=2)
-            except Exception:
-                pass
+            if self._voice_beeps_enabled():
+                try:
+                    from tools.voice_mode import play_beep
+                    play_beep(frequency=660, count=2)
+                except Exception:
+                    pass

            if wav_path is None:
                _cprint(f"{_DIM}No speech detected.{_RST}")
@@ -7071,6 +7061,17 @@ class HermesCLI:
            _cprint(f"Unknown voice subcommand: {subcommand}")
            _cprint("Usage: /voice [on|off|tts|status]")

+    def _voice_beeps_enabled(self) -> bool:
+        """Return whether CLI voice mode should play record start/stop beeps."""
+        try:
+            from hermes_cli.config import load_config
+            voice_cfg = load_config().get("voice", {})
+            if isinstance(voice_cfg, dict):
+                return bool(voice_cfg.get("beep_enabled", True))
+        except Exception:
+            pass
+        return True
+
    def _enable_voice_mode(self):
        """Enable voice mode after checking requirements."""
        if self._voice_mode:
--- a/tests/cli/test_cli_json_repair.py
+++ b/tests/cli/test_cli_json_repair.py
@@ -1,62 +0,0 @@
-import sys
-import types
-from unittest.mock import patch
-
-
-def _stub_auxiliary_client():
-    stub = types.ModuleType("agent.auxiliary_client")
-    stub.call_llm = lambda *args, **kwargs: None
-    stub.resolve_provider_client = lambda *args, **kwargs: (None, None)
-    stub.get_text_auxiliary_client = lambda *args, **kwargs: (None, None)
-    stub.async_call_llm = lambda *args, **kwargs: None
-    stub.extract_content_or_reasoning = lambda *args, **kwargs: ""
-    stub._OR_HEADERS = {}
-    stub._get_task_timeout = lambda *args, **kwargs: 30
-    sys.modules["agent.auxiliary_client"] = stub
-
-
-def _stub_vision_tools(vision_analyze_tool):
-    stub = types.ModuleType("tools.vision_tools")
-    stub.vision_analyze_tool = vision_analyze_tool
-    sys.modules["tools.vision_tools"] = stub
-
-
-def test_preprocess_images_with_vision_repairs_malformed_json(tmp_path):
-    _stub_auxiliary_client()
-    from cli import HermesCLI
-
-    cli_obj = HermesCLI.__new__(HermesCLI)
-    image_path = tmp_path / "test.png"
-    image_path.write_bytes(b"fake-image-bytes")
-
-    async def fake_vision(**kwargs):
-        return "{'success': true, 'analysis': 'Recovered image description',}"
-
-    _stub_vision_tools(fake_vision)
-    result = HermesCLI._preprocess_images_with_vision(
-        cli_obj,
-        "Describe this",
-        [image_path],
-        announce=False,
-    )
-
-    assert "Recovered image description" in result
-    assert "Describe this" in result
-    assert str(image_path) in result
-
-
-def test_handle_cron_command_repairs_malformed_json(capsys):
-    _stub_auxiliary_client()
-    from cli import HermesCLI
-
-    cli_obj = HermesCLI.__new__(HermesCLI)
-    malformed_result = """{'success': true, 'jobs': [{'job_id': 'job-1234567890ab', 'name': 'Nightly Check', 'state': 'scheduled', 'schedule': 'every 1h', 'repeat': 'forever', 'prompt_preview': 'Check server status', 'skills': ['blogwatcher',], 'next_run_at': '2026-04-22T01:00:00Z',},],}"""
-
-    with patch("tools.cronjob_tools.cronjob", return_value=malformed_result):
-        HermesCLI._handle_cron_command(cli_obj, "/cron list")
-
-    out = capsys.readouterr().out
-    assert "Scheduled Jobs:" in out
-    assert "job-1234567890ab" in out
-    assert "Nightly Check" in out
-    assert "blogwatcher" in out
--- a/tests/tools/test_browser_json_repair.py
+++ b/tests/tools/test_browser_json_repair.py
@@ -1,108 +0,0 @@
-import io
-import json
-import sys
-import types
-from unittest.mock import MagicMock, patch
-
-
-def _stub_auxiliary_client():
-    stub = types.ModuleType("agent.auxiliary_client")
-    stub.call_llm = lambda *args, **kwargs: None
-    stub.resolve_provider_client = lambda *args, **kwargs: (None, None)
-    stub.get_text_auxiliary_client = lambda *args, **kwargs: (None, None)
-    stub.async_call_llm = lambda *args, **kwargs: None
-    stub.extract_content_or_reasoning = lambda *args, **kwargs: ""
-    stub._OR_HEADERS = {}
-    stub._get_task_timeout = lambda *args, **kwargs: 30
-    sys.modules["agent.auxiliary_client"] = stub
-
-
-def test_run_browser_command_repairs_malformed_stdout_envelope(tmp_path):
-    _stub_auxiliary_client()
-    from tools.browser_tool import _run_browser_command
-
-    mock_proc = MagicMock()
-    mock_proc.returncode = 0
-    mock_proc.wait.return_value = 0
-    fake_session = {
-        "session_name": "test-session",
-        "session_id": "test-id",
-        "cdp_url": None,
-    }
-    malformed_stdout = "{'success': true, 'data': {'url': 'https://example.com',},}"
-
-    def fake_open(path, mode="r", *args, **kwargs):
-        path = str(path)
-        if path.endswith("_stdout_navigate"):
-            return io.StringIO(malformed_stdout)
-        if path.endswith("_stderr_navigate"):
-            return io.StringIO("")
-        raise FileNotFoundError(path)
-
-    with (
-        patch("tools.browser_tool._find_agent_browser", return_value="/usr/bin/agent-browser"),
-        patch("tools.browser_tool._get_session_info", return_value=fake_session),
-        patch("tools.browser_tool._socket_safe_tmpdir", return_value=str(tmp_path)),
-        patch("tools.browser_tool._merge_browser_path", side_effect=lambda p: p),
-        patch("tools.interrupt.is_interrupted", return_value=False),
-        patch("subprocess.Popen", return_value=mock_proc),
-        patch("os.open", return_value=99),
-        patch("os.close"),
-        patch("os.unlink"),
-        patch("builtins.open", side_effect=fake_open),
-    ):
-        result = _run_browser_command("task-1", "navigate", ["https://example.com"])
-
-    assert result["success"] is True
-    assert result["data"]["url"] == "https://example.com"
-
-
-def test_agent_browser_eval_repairs_malformed_json_result():
-    _stub_auxiliary_client()
-    from tools.browser_tool import _browser_eval
-
-    with patch(
-        "tools.browser_tool._run_browser_command",
-        return_value={"success": True, "data": {"result": "{'items': ['a', 'b',],}"}},
-    ):
-        result = json.loads(_browser_eval("document.body.innerText", task_id="test"))
-
-    assert result["success"] is True
-    assert result["result"] == {"items": ["a", "b"]}
-    assert result["result_type"] == "dict"
-
-
-def test_camofox_eval_repairs_malformed_json_result():
-    _stub_auxiliary_client()
-    from tools.browser_tool import _camofox_eval
-
-    with (
-        patch("tools.browser_camofox._ensure_tab", return_value={"tab_id": "tab-1", "user_id": "user-1"}),
-        patch("tools.browser_camofox._post", return_value={"result": "{'count': 3,}"}),
-    ):
-        result = json.loads(_camofox_eval("2+1", task_id="test"))
-
-    assert result["success"] is True
-    assert result["result"] == {"count": 3}
-    assert result["result_type"] == "dict"
-
-
-def test_browser_get_images_repairs_malformed_json_result():
-    _stub_auxiliary_client()
-    from tools.browser_tool import browser_get_images
-
-    with patch(
-        "tools.browser_tool._run_browser_command",
-        return_value={
-            "success": True,
-            "data": {
-                "result": "[{\"src\": \"https://example.com/cat.png\", \"alt\": \"cat\",}]"
-            },
-        },
-    ):
-        result = json.loads(browser_get_images(task_id="test"))
-
-    assert result["success"] is True
-    assert result["count"] == 1
-    assert result["images"] == [{"src": "https://example.com/cat.png", "alt": "cat"}]
-    assert "warning" not in result
--- a/tests/tools/test_voice_cli_integration.py
+++ b/tests/tools/test_voice_cli_integration.py
@@ -4,13 +4,31 @@ state management, streaming TTS activation, voice message prefix, _vprint."""
 import ast
 import os
 import queue
+import sys
 import threading
+import types
 from types import SimpleNamespace
 from unittest.mock import MagicMock, patch

 import pytest


+def _ensure_cli_import_shims():
+    sys.modules.setdefault(
+        "agent.auxiliary_client",
+        types.SimpleNamespace(
+            call_llm=lambda *args, **kwargs: "",
+            async_call_llm=lambda *args, **kwargs: "",
+            extract_content_or_reasoning=lambda *args, **kwargs: "",
+            resolve_provider_client=lambda *args, **kwargs: (None, None, None, None),
+            get_async_text_auxiliary_client=lambda *args, **kwargs: None,
+        ),
+    )
+
+
+_ensure_cli_import_shims()
+
+
 def _make_voice_cli(**overrides):
    """Create a minimal HermesCLI with only voice-related attrs initialized.

@@ -18,6 +36,7 @@ def _make_voice_cli(**overrides):
    needed.  Only the voice state attributes (from __init__ lines 3749-3758)
    are populated.
    """
+    _ensure_cli_import_shims()
    from cli import HermesCLI

    cli = HermesCLI.__new__(HermesCLI)
@@ -933,6 +952,58 @@ class TestEnableVoiceModeReal:
        assert cli._voice_mode is True


+class TestVoiceBeepConfigReal:
+    """Tests the CLI voice beep toggle."""
+
+    @patch("hermes_cli.config.load_config", return_value={"voice": {}})
+    def test_beeps_enabled_by_default(self, _cfg):
+        cli = _make_voice_cli()
+        assert cli._voice_beeps_enabled() is True
+
+    @patch("hermes_cli.config.load_config", return_value={"voice": {"beep_enabled": False}})
+    def test_beeps_can_be_disabled(self, _cfg):
+        cli = _make_voice_cli()
+        assert cli._voice_beeps_enabled() is False
+
+    @patch("cli._cprint")
+    @patch("cli.threading.Thread")
+    @patch("tools.voice_mode.play_beep")
+    @patch("tools.voice_mode.create_audio_recorder")
+    @patch(
+        "tools.voice_mode.check_voice_requirements",
+        return_value={
+            "available": True,
+            "audio_available": True,
+            "stt_available": True,
+            "details": "OK",
+            "missing_packages": [],
+        },
+    )
+    @patch(
+        "hermes_cli.config.load_config",
+        return_value={
+            "voice": {
+                "beep_enabled": False,
+                "silence_threshold": 200,
+                "silence_duration": 3.0,
+            }
+        },
+    )
+    def test_start_recording_skips_beep_when_disabled(
+        self, _cfg, _req, mock_create, mock_beep, mock_thread, _cp
+    ):
+        recorder = MagicMock()
+        recorder.supports_silence_autostop = True
+        mock_create.return_value = recorder
+        mock_thread.return_value = MagicMock(start=MagicMock())
+
+        cli = _make_voice_cli()
+        cli._voice_start_recording()
+
+        recorder.start.assert_called_once()
+        mock_beep.assert_not_called()
+
+
 class TestDisableVoiceModeReal:
    """Tests _disable_voice_mode with real CLI instance."""

@@ -1087,6 +1158,16 @@ class TestVoiceStopAndTranscribeReal:
        cli._voice_stop_and_transcribe()
        assert cli._pending_input.empty()

+    @patch("cli._cprint")
+    @patch("hermes_cli.config.load_config", return_value={"voice": {"beep_enabled": False}})
+    @patch("tools.voice_mode.play_beep")
+    def test_no_speech_detected_skips_beep_when_disabled(self, mock_beep, _cfg, _cp):
+        recorder = MagicMock()
+        recorder.stop.return_value = None
+        cli = _make_voice_cli(_voice_recording=True, _voice_recorder=recorder)
+        cli._voice_stop_and_transcribe()
+        mock_beep.assert_not_called()
+
    @patch("cli._cprint")
    @patch("cli.os.unlink")
    @patch("cli.os.path.isfile", return_value=True)
@@ -1156,12 +1237,18 @@ class TestVoiceStopAndTranscribeReal:
    @patch("cli._cprint")
    @patch("tools.voice_mode.play_beep")
    def test_continuous_restarts_on_no_speech(self, _beep, _cp):
+        import time
+
        recorder = MagicMock()
        recorder.stop.return_value = None
        cli = _make_voice_cli(_voice_recording=True, _voice_recorder=recorder,
                              _voice_continuous=True)
        cli._voice_start_recording = MagicMock()
        cli._voice_stop_and_transcribe()
+        for _ in range(50):
+            if cli._voice_start_recording.call_count:
+                break
+            time.sleep(0.01)
        cli._voice_start_recording.assert_called_once()

    @patch("cli._cprint")
--- a/tools/browser_tool.py
+++ b/tools/browser_tool.py
@@ -67,7 +67,6 @@ from typing import Dict, Any, Optional, List
 from pathlib import Path
 from agent.auxiliary_client import call_llm
 from hermes_constants import get_hermes_home
-from utils import repair_and_load_json

 try:
    from tools.website_policy import check_website_access
@@ -1172,12 +1171,8 @@ def _run_browser_command(
            return {"success": False, "error": f"Browser command '{command}' returned no output"}

        if stdout_text:
-            parsed = repair_and_load_json(
-                stdout_text,
-                default=None,
-                context=f"browser_{command}_stdout",
-            )
-            if isinstance(parsed, dict):
+            try:
+                parsed = json.loads(stdout_text)
                # Warn if snapshot came back empty (common sign of daemon/CDP issues)
                if command == "snapshot" and parsed.get("success"):
                    snap_data = parsed.get("data", {})
@@ -1186,35 +1181,35 @@ def _run_browser_command(
                                       "Possible stale daemon or CDP connection issue. "
                                       "returncode=%s", returncode)
                return parsed
+            except json.JSONDecodeError:
+                raw = stdout_text[:2000]
+                logger.warning("browser '%s' returned non-JSON output (rc=%s): %s",
+                               command, returncode, raw[:500])

-            raw = stdout_text[:2000]
-            logger.warning("browser '%s' returned non-JSON output (rc=%s): %s",
-                           command, returncode, raw[:500])
-
-            if command == "screenshot":
-                stderr_text = (stderr or "").strip()
-                combined_text = "\n".join(
-                    part for part in [stdout_text, stderr_text] if part
-                )
-                recovered_path = _extract_screenshot_path_from_text(combined_text)
-
-                if recovered_path and Path(recovered_path).exists():
-                    logger.info(
-                        "browser 'screenshot' recovered file from non-JSON output: %s",
-                        recovered_path,
+                if command == "screenshot":
+                    stderr_text = (stderr or "").strip()
+                    combined_text = "\n".join(
+                        part for part in [stdout_text, stderr_text] if part
                    )
-                    return {
-                        "success": True,
-                        "data": {
-                            "path": recovered_path,
-                            "raw": raw,
-                        },
-                    }
+                    recovered_path = _extract_screenshot_path_from_text(combined_text)

-            return {
-                "success": False,
-                "error": f"Non-JSON output from agent-browser for '{command}': {raw}"
-            }
+                    if recovered_path and Path(recovered_path).exists():
+                        logger.info(
+                            "browser 'screenshot' recovered file from non-JSON output: %s",
+                            recovered_path,
+                        )
+                        return {
+                            "success": True,
+                            "data": {
+                                "path": recovered_path,
+                                "raw": raw,
+                            },
+                        }
+
+                return {
+                    "success": False,
+                    "error": f"Non-JSON output from agent-browser for '{command}': {raw}"
+                }
        
        # Check for errors
        if returncode != 0:
@@ -1782,11 +1777,10 @@ def _browser_eval(expression: str, task_id: Optional[str] = None) -> str:
    # is valid JSON, parse it so the model gets structured data.
    parsed = raw_result
    if isinstance(raw_result, str):
-        parsed = repair_and_load_json(
-            raw_result,
-            default=raw_result,
-            context="browser_eval_result",
-        )
+        try:
+            parsed = json.loads(raw_result)
+        except (json.JSONDecodeError, ValueError):
+            pass  # keep as string

    return json.dumps({
        "success": True,
@@ -1807,11 +1801,10 @@ def _camofox_eval(expression: str, task_id: Optional[str] = None) -> str:
        raw_result = resp.get("result") if isinstance(resp, dict) else resp
        parsed = raw_result
        if isinstance(raw_result, str):
-            parsed = repair_and_load_json(
-                raw_result,
-                default=raw_result,
-                context="camofox_eval_result",
-            )
+            try:
+                parsed = json.loads(raw_result)
+            except (json.JSONDecodeError, ValueError):
+                pass

        return json.dumps({
            "success": True,
@@ -1911,29 +1904,26 @@ def browser_get_images(task_id: Optional[str] = None) -> str:
    if result.get("success"):
        data = result.get("data", {})
        raw_result = data.get("result", "[]")
-
-        warning = None
-        if isinstance(raw_result, str):
-            images = repair_and_load_json(
-                raw_result,
-                default=None,
-                context="browser_get_images_result",
-            )
-        else:
-            images = raw_result
-
-        if not isinstance(images, list):
-            images = []
-            warning = "Could not parse image data"
-
-        payload = {
-            "success": True,
-            "images": images,
-            "count": len(images),
-        }
-        if warning:
-            payload["warning"] = warning
-        return json.dumps(payload, ensure_ascii=False)
+        
+        try:
+            # Parse the JSON string returned by JavaScript
+            if isinstance(raw_result, str):
+                images = json.loads(raw_result)
+            else:
+                images = raw_result
+            
+            return json.dumps({
+                "success": True,
+                "images": images,
+                "count": len(images)
+            }, ensure_ascii=False)
+        except json.JSONDecodeError:
+            return json.dumps({
+                "success": True,
+                "images": [],
+                "count": 0,
+                "warning": "Could not parse image data"
+            }, ensure_ascii=False)
    else:
        return json.dumps({
            "success": False,
--- a/website/docs/user-guide/features/voice-mode.md
+++ b/website/docs/user-guide/features/voice-mode.md
@@ -149,7 +149,7 @@ Two-stage algorithm detects when you've finished speaking:

 If no speech is detected at all for 15 seconds, recording stops automatically.

-Both `silence_threshold` and `silence_duration` are configurable in `config.yaml`.
+Both `silence_threshold` and `silence_duration` are configurable in `config.yaml`. You can also disable the record start/stop beeps with `voice.beep_enabled: false`.

 ### Streaming TTS

@@ -383,6 +383,7 @@ voice:
  record_key: "ctrl+b"            # Key to start/stop recording
  max_recording_seconds: 120       # Maximum recording length
  auto_tts: false                  # Auto-enable TTS when voice mode starts
+  beep_enabled: true               # Play record start/stop beeps
  silence_threshold: 200           # RMS level (0-32767) below which counts as silence
  silence_duration: 3.0            # Seconds of silence before auto-stop