Если вы не беспокоитесь о том, что корпоративные роботы-наблюдатели будут копаться в вашем списке покупок и манипулировать вами с помощью маркетинга, вы можете купить любое количество готовых интеллектуальных колонок для вашего дома. В качестве альтернативы, вы можете запустить свой собственный, как это сделал [arpy8], и сделать свою жизнь более приватной.
Сборка основана на микроконтроллере ESP32. Он подключается к сети через встроенный Wi-Fi и прослушивает ваш голос с помощью всенаправленного микрофонного модуля INMP441. Аудиоданные передаются на внутренний сервер, на котором работает модель преобразования речи в текст шепотом. Затем текст передается в языковую модель Google Gemini 2. 5 Flash large. Сгенерированный ответ передается на модуль преобразования текста в речь Piper Neural Voice, отправляется обратно на ESP32 и выводится через выход ЦАП устройства и динамик, подключенный к усилителю LM386. В принципе, с помощью этого устройства вы можете сделать с Gemini все, что угодно.
Из-за использования коммерческой модели large language это никоим образом не является полностью приватным. Тем не менее, это, по крайней мере, немного проще, чем использовать интеллектуальную колонку, которая напрямую подключена к вашей учетной записи Amazon/Google/Hulu/Beanstikk. Для тех, кто хочет углубиться в код, есть файлы на Github. Ранее мы также видели несколько других интересных сборок в этом направлении. Видео после перерыва.