Вы здесь

Распознавание речи онлайн. Google Web Speech API.

Помнится, в каком-то фантастическом фильме был показан способ работы писательницы: женщина произносила фразы — и они тут же появлялись на дисплее компьютера в виде текста. Компания Google, уже сделавшая реальностью беспилотный автомобиль, решила реализовать и эту концепцию, создав Web Speech API.

 Чтобы романы сочинять можно было предельно легко — без ручного набора сотен тысяч букв, просто прогуливаясь со смартфоном в саду. Посмотрим, насколько Google удалось продвинуться в приближении столь фантастичного будущего.

Демонстрация возможностей

Требуется браузер Google Chrome, в коем наличествует Web Speech API. Значит, предварительно скачиваем и устанавливаем таковой.

Направляемся по адресу для тестирования сего API в онлайн режиме: www.google.com/intl/en/chrome/demos/speech.html

Распознование речи от Google

Произносим в микрофон: "Распознавание речи Google работает не очень хорошо. Главное — говорить в естественном темпе, а не по одному слову. Иногда распознаёт абсолютно точно, но отсебятину несёт всё же нередко. А ещё почему-то приплетает не совсем хорошие слова, которые вообще не звучали, но послышались программе."

Результат: "Распознавание речи google работает очень хорошо главное абсолютно точно почему хорошие слова программа".

Как видим, распознан лишь фрагмент. Нет пунктуации, а в конце — вообще сплошная несуразица. При этом вместо "звучали" на полсекунды появилось "Чарли", но тут же исчезло.

Почему фрагмент? Дело в том, что на сервер отсылается звук, а он, ежели связь некачественная, может поступать туда в искажённом виде.

В любом случае, страница — демонстрационная, предъявляющая возможности Web Speech API

, а не готовый сервис. К готовому, кстати, и перейдём.

Голосовой блокнот

Распознование речи от Google

Более продвинутым является "Голосовой блокнот" по адресу speechpad.ru, где речь распознаётся чуточку точнее. Использует тот же Web Speech API от Google.

Однако отрицательная частичка "не" всё равно выбрасывается.

 Не воспринимается и «то», вместо «почему-то» пишет «почему».

Зато имеются: 1) подробная, ясная инструкция; 2) хоть какие-то настройки. А ещё понимает команды введения знаков пунктуации. Например, если произнести "точка", действительно поставит точку.

Главное — отметить галочкой «Возобновлять при ошибках», иначе придётся постоянно жать на кнопку активации микрофона.

Впрочем, там наличествуют даже видео, обучающие работе с сервисом, так что пересказывать вкус предлагаемых плюшек не станем, лучше пробовать самостоятельно.

Однако нельзя не заметить, что «Перевод аудио в текст» — штука весьма интересная, но, увы, требующая размещения мультимедийного файла либо на YouTube, либо где-нибудь на веб-странице со средствами встраивания HTML5.

Впрочем, это если очень нужно регулярно переводить в текст не слишком секретное содержимое, диктуемое в смартфон, а печатать расшифровки вручную не хочется. Тогда имеет смысл заводить себе специальную страницу-хранилище. Кстати, о секретности и прочей приватности — далее.

Приватность

К сожалению, ситуация складывается так, что понятия «Google» и «приватность» уже воспринимаются народонаселением чуть ли не как антонимы.

Следует помнить, что использование любого (вообще любого!) голосового ввода в смартфонах с ОС Android непременнейшим образом влечёт за собой:

  1. сохранение образцов вашего голоса на серверах Google;
  2. привязка оных образцов к вашему пользовательскому аккаунту;
  3. выполнение вышеуказанных действий тайком, без каких-либо предупреждений.

Потом наличие тех образцов обнаруживается внезапно и постфактум. Значит, если для вас приватность как таковая не является пустым звуком, поступаем так:

  1. устанавливаем Google Chrome на «большой компьютер», не на планшет или нетбук с ОС Android;
  2. пользуемся браузером без входа посредством оного в аккаунт Google; то есть бродим по каким угодно сайтам, но уникальный идентификатор установленной у вас копии браузера никогда не связываем со своей учётной записью.

Заключение

Само название Web Speech API

 даже без любезной помощи Капитана Очевидность говорит нам, что сервис не работает оффлайн.

Локальной программы, распознающей русскую речь (именно русскую), пока никто не создал. Поэтому фантастичное будущее, хотя уже и прорисовывается в некоторых чертах, но всё же остаётся довольно далёким.

Почему? Потому что вменяемый писатель не станет сочинять романы только лишь онлайн. Творческий процесс не может зависеть от наличия коннекта. Поэтому обычные физические клавиатуры выбрасывать рано. Соответственно, рано и переходить на одни лишь планшеты вместо укомплектованных клавиатурами ноутбуков.

Похожие материалы

Комментарии

"Локальной программы, распознающей русскую речь (именно русскую), пока никто не создал." Уже давно создали. Компания ЦРТ speechpro.ru
Прикольно, иногда почти без ошибок распознает, если четко произносить слова.
звук не передается по инету с искажениями даже если на одном диалап-модеме сидит целая многоэтажка. он оцифровывается с микрофона на локальном компе и передается в цифровом виде, потому что по витой паре (вайфаю, блютусу и т.д.) все передается только в цифре.
Маленькая поправка: на адроиде МОЖНО распознавать речь оффлайн. Есть спец. настройка, где можно задать, чтобы скачались необходимые для работы оффлайн речевые файлы.
Я с помощью данного сервиса пишу статьи для блога, потом правда руками все равно приходится обрабатывать, но основную часть я надиктовываю лежа на диване.

Добавить комментарий