🎤 Гайды

Перестаньте печатать промпты: диктуйте их голосом через бесплатный Handy

Перестаньте печатать промпты: диктуйте их голосом через бесплатный Handy

Коротко: печатать подробный промпт долго, поэтому большинство пишут короткие и получают слабые ответы. Бесплатный локальный инструмент Handy превращает речь в текст прямо на вашем компьютере — без облака и подписки: вы говорите в 3–4 раза быстрее, чем печатаете. Для русского ставите модель GigaAM, а для заграничных сервисов сразу переводите сказанное на английский через Whisper. Ниже — техника, настройка за десять минут и где это окупается в бизнесе.

Есть короткое видео с простой мыслью: «я больше не печатаю руками — теперь за меня всё делает искусственный интеллект». Звучит как очередной лайфхак из ленты, но за ним стоит вещь, которую мы в ЭПОХА\ИИ проверили на собственной работе. И да, она меняет скорость работы с ИИ сильнее, чем переход на более дорогую модель.

Суть не в том, чтобы «диктовать вместо того, чтобы писать». Суть в том, что печать — это узкое горло, через которое вы передаёте задачу нейросети. Чем уже горло, тем меньше контекста доходит до модели, тем слабее ответ. Разберём по порядку: почему так, каким бесплатным инструментом это лечится и как его настроить под русский язык за десять минут.

Почему вы получаете слабые ответы от ИИ

Большинство людей винят модель: «ChatGPT тупит», «Claude льёт воду». В девяти случаях из десяти дело не в модели. Дело в промпте.

Посмотрите, как обычно выглядит запрос к ИИ у занятого человека: одна-две строки. «Напиши пост про новую услугу». «Сделай коммерческое предложение для клиента». Модель получает огрызок контекста и достраивает остальное из воздуха. Отсюда вода, общие места, не тот тон, не та структура.

А теперь честный вопрос: почему вы пишете короткий промпт, хотя знаете, что подробный сработает лучше? Потому что подробный долго печатать. Чтобы объяснить нейросети, кто ваш клиент, какой тон нужен, чего писать нельзя, какой результат вы ждёте и в каком формате — это абзац, а то и три. На клавиатуре это две-три минуты возни. И вы подсознательно срезаете угол: пишете короче, чем нужно, лишь бы быстрее получить хоть что-то.

Это и есть узкое горло. Не интеллект модели, а ваша скорость набора текста. Хорошая новость: горло расширяется одним движением, причём бесплатно.

Сколько времени съедает печать — простая арифметика

Цифры тут не абстрактные, они меряются и давно известны.

Способ вводаСлов в минуту
Печать, средний офисный сотрудник~40
Печать, опытная «слепая» машинистка60–80
Обычная человеческая речь~150
Диктовка через голосовой ИИ-инструмент150–220

Разница — в 3–4 раза. Разработчики, которые диктуют код и заметки, фиксируют у себя около 180 слов в минуту против 40–80 на клавиатуре. Это не «чуть быстрее», это другой режим работы.

Что это значит на практике: промпт, который вы печатали бы три минуты и поэтому не печатали, наговаривается за сорок секунд. Порог «лень объяснять подробно» исчезает. Вы начинаете давать модели тот объём контекста, который ей реально нужен — и качество ответа выстреливает не потому, что модель поумнела, а потому что вы наконец нормально поставили задачу.

Главный выигрыш голосового ввода — не скорость сама по себе, а то, что вы перестаёте экономить на контексте. Длинный, подробный промпт перестаёт быть «дорогим» по усилиям. А именно от длины и точности промпта зависит, насколько полезным будет ответ.

Решение из ролика: диктовать голосом бесплатным локальным инструментом

В видео используется не платный облачный сервис, а бесплатная программа с открытым кодом — Handy (сайт handy.computer, репозиторий на GitHub). Это её ключевое отличие от раскрученных Wispr Flow или Superwhisper: Handy бесплатна полностью, без платных тарифов, и работает прямо на вашем компьютере, не отправляя звук в облако.

Принцип простой:

Распознавание работает локально на одной из моделей, которые вы скачиваете внутри программы. Под капотом — модели Whisper от OpenAI и Parakeet, плюс можно добавить русскоязычные. Установка обычная: скачали с сайта или из GitHub-репозитория, поставили, выбрали модель. Дальше — только говорить.

Почему локальный инструмент важнее, чем кажется

Для бизнеса «локально» — это не гиковская придирка, а вопрос денег и безопасности.

Это бесплатно. Облачные конкуренты берут 8–15 $ в месяц с каждого человека. Handy не берёт ничего. На команду из пяти человек это 40–75 $ в месяц разницы на ровном месте.

Данные не уходят в облако. Когда вы диктуете облачному сервису, ваш звук уезжает на чужие серверы. Для переписки с клиентами, коммерческих условий, всего, что под NDA — это утечка по дизайну. Handy распознаёт речь на вашем же компьютере, наружу не уходит ничего. Именно поэтому такой инструмент мы спокойно рекомендуем клиентам, у которых есть требования к конфиденциальности данных.

Работает офлайн. Нет интернета в дороге или на объекте — диктовка всё равно работает, потому что модель лежит у вас на диске.

Локальный распознаватель — это тот редкий случай, когда бесплатный вариант ещё и безопаснее платного. Звук остаётся на вашей машине, а не на сервере чужой компании. Для работы с клиентскими данными это решающий аргумент.

Какую модель выбрать: GigaAM для русского, Whisper для перевода

Внутри Handy — список моделей, и выбор тут не косметический, а определяет качество.

Для чистого русского — GigaAM. Это открытая русскоязычная модель распознавания от SaluteDevices. На русской речи она обгоняет даже Whisper-large-v3 примерно на 50% по точности и сама расставляет пунктуацию. Если вам нужно надиктовывать по-русски и получать аккуратный русский текст — берите её.

Для перевода на английский — Whisper Medium. Тут важный технический нюанс, который в ролике звучит как «странно, да»: у Whisper есть отдельный режим, который переводит речь с любого языка сразу на английский. Поэтому, чтобы наговорить по-русски и получить английский текст, вы в настройках выставляете язык — английский. Выглядит контринтуитивно, но работает именно так: модель не транскрибирует, а переводит на лету. Обратной операции (с английского на русский) у Whisper нет — перевод идёт только в английский.

Логика выбора простая: GigaAM — когда нужен точный русский, Whisper Medium — когда нужно сразу отдать промпт на английском. GigaAM переводить не умеет, это распознаватель русского; за перевод отвечает Whisper. Две модели под две разные задачи, переключаются в пару кликов.

Зачем вообще переводить промпт на английский

Это второй слой техники, и именно про него в ролике говорят «очень круто, когда мы пишем промты».

Почти все большие языковые модели обучались преимущественно на английских данных. На английском они отвечают точнее, реже галлюцинируют, лучше держат сложные инструкции и тоньше понимают нюансы. На русском результат стабильно чуть слабее — мы подробно разбирали это в материале про Claude и ChatGPT для бизнеса. Разрыв не пропасть, но на сложных задачах он заметен.

Связка получается такая: вы думаете и говорите по-русски — быстро и без напряжения, — а в модель уходит английский промпт. Вы работаете на родном языке, модель работает на своём сильном. То же самое полезно на любых заграничных сервисах, где интерфейс и поддержка ждут английский.

Внедрим ИИ в рабочие процессы вашей команды

Хочу

Как настроить за десять минут

По шагам, ровно как в ролике, только с пояснениями.

  1. Скачайте Handy с сайта handy.computer или из GitHub-репозитория проекта. Установите как обычное приложение. Это бесплатно.
  2. Откройте раздел «Модели» и скачайте нужную: GigaAM — для точного русского, Whisper Medium — если хотите сразу перевод на английский. Модель скачивается один раз и дальше лежит на диске.
  3. Зайдите в общие настройки и назначьте горячую клавишу. В ролике автор использует среднюю кнопку мыши — удобно, потому что не занимает клавиатуру. Подойдёт любая свободная клавиша или кнопка.
  4. Выставьте язык. Хотите русский текст — русский. Хотите автоматический перевод на английский — ставьте английский (это включит режим перевода Whisper).
  5. Проверьте. Зажмите назначенную клавишу, говорите, отпустите. Через пару секунд текст появится в активном поле ввода — уже причёсанный, с пунктуацией.
  6. По желанию — продвинутые настройки. Есть автоматическая отправка: после того как вы договорили, текст сразу уходит нажатием Enter, без ручной проверки. Метод вставки лучше поставить прямой. Автоотправку включайте осознанно — она удобна в диалоге с ИИ, но не оставляет шанса вычитать текст перед отправкой.

Весь процесс — от скачивания до первого надиктованного промпта — занимает около десяти минут, и почти всё это время уходит на загрузку модели.

Где это окупается в бизнесе

Техника звучит как «для гиков», но самый сок — именно в рутинной бизнес-работе, где много текста и мало времени.

Письма и переписка. Ответ клиенту, письмо партнёру, согласование — наговорить три абзаца быстрее, чем напечатать один.

Технические задания и брифы. Объяснить подрядчику или нейросети, что нужно, голосом получается полнее: вы не срезаете детали ради экономии набора. А чем полнее ТЗ — тем меньше переделок.

Промпты для ИИ-агентов. Когда вы настраиваете ИИ-сотрудника, системный промпт — это полотно на несколько тысяч знаков: правила, тон, сценарии, ограничения. Диктовать такое в разы быстрее, чем печатать. Мы в ЭПОХА\ИИ собираем подобные сценарии для клиентов постоянно, и черновик правил быстрее именно наговорить, а потом отредактировать.

Заметки и расшифровки на ходу. Идея в дороге, мысль после встречи, задача голосом — всё это превращается в структурированный текст сразу, а не «потом разберу».

Контент. Черновик поста, тезисы для статьи, сценарий ролика — наговорить болванку и отдать нейросети на доработку быстрее, чем писать с нуля.

Подводные камни, о которых не говорят в ролике

Чтобы вы не разочаровались на второй день, честно о минусах.

Модель надо скачать, и она грузит компьютер. Локальное распознавание работает на вашем железе. На слабом ноутбуке тяжёлая модель будет думать дольше пары секунд. Начните со средней модели, а не с самой большой.

Текст всё равно надо вычитывать. Распознавание хорошее, но не идеальное. Имена, термины, цифры, названия моделей оно иногда слышит не так. Особенно это касается перевода на английский — для критичного промпта беглый взгляд перед отправкой обязателен. Поэтому с автоотправкой не торопитесь.

Это неудобно в опенспейсе. Говорить вслух рабочие задачи рядом с коллегами или в кафе — так себе. Техника заходит там, где вы можете говорить спокойно: свой кабинет, дом, машина, наушники с микрофоном.

Нужен нормальный микрофон. Встроенный в ноутбук сойдёт, но в шумной комнате точность падает. Гарнитура заметно улучшает результат.

Привыкание занимает несколько дней. Первые наговоры идут коряво: мозг сопротивляется «писать ртом». На третий-четвёртый день это становится естественным, и назад на полную ручную печать длинных промптов уже не тянет.

Источники

FAQ

Это правда быстрее, чем печатать?

Да, в 3–4 раза. Средняя скорость печати в офисе — около 40 слов в минуту, обычная речь — около 150, а голосовые инструменты дают пользователям 150–220 слов в минуту. Главный выигрыш даже не в скорости, а в том, что вы перестаёте экономить на длине промпта.

Handy правда бесплатный?

Да. Это проект с открытым кодом под лицензией MIT, без платных тарифов вообще. Скачивается с сайта handy.computer или из GitHub-репозитория. Распознавание работает локально на вашем компьютере, поэтому за «облако» тоже платить не нужно.

Какую модель выбрать для русского языка?

GigaAM — открытую русскоязычную модель от SaluteDevices. На русской речи она точнее Whisper-large-v3 примерно на 50% и сама расставляет пунктуацию. Если же вам нужно сразу переводить надиктованное на английский — берите Whisper Medium, у GigaAM перевода нет.

Почему для перевода на английский надо выбирать язык «английский»?

У Whisper есть отдельный режим, который переводит речь с любого языка сразу на английский. Поэтому, чтобы наговорить по-русски и получить английский текст, в настройках выставляют именно английский. Выглядит контринтуитивно, но модель в этом режиме не транскрибирует, а переводит. Обратного перевода — с английского на русский — у Whisper нет.

Безопасно ли диктовать рабочие данные?

В случае Handy — да, потому что распознавание идёт локально и звук никуда не уходит. Это его преимущество перед облачными сервисами, которые отправляют запись на свои серверы. Для данных клиентов и всего под NDA локальный инструмент — единственный правильный выбор.

А распознавание не путает слова?

Современные модели распознают речь хорошо и сами убирают слова-паразиты, ставят пунктуацию и форматируют текст. Но имена, термины и цифры иногда слышит не так — беглая вычитка перед отправкой обязательна, особенно если включена автоотправка по Enter.

С какой нейросетью это работает?

С любой. Голосовой ввод — это надстройка над клавиатурой: текст появляется в поле ввода, а дальше его принимает хоть ChatGPT, хоть Claude, хоть Gemini. Какую модель брать под задачу — отдельный вопрос, мы разбирали его в сравнении Claude и ChatGPT.

Прочитали? Давайте внедрим

ИИ-консультант ответит за 5 секунд.

Никита Овдиенко
Автор статьи

Никита Овдиенко

Строю ЭПОХА ИИ

В Telegram-канале «Никита Овдиенко | Бизнес на AI» рассказываю как ИИ помогает автоматизировать бизнес-процессы и увеличивать доход — на примере своей компании и проектов клиентов.

Подписаться

Выберите мессенджер

Ответим сразу же!