Использовать голосовой набор не всегда удобно, если это не запросы в поисковики. В шумной обстановке не получается прослушать запись голосового сообщения, некоторые люди в принципе лишены такой возможности. Если надиктованная информация нужна в печатном виде, войсы приходится переслушивать и перепечатывать, это тратит время и силы. Расшифровать интервью и аудиодорожку к видео тоже хорошо бы не собственными руками.
Транскрибация аудиофайлов в текст позволяет быстро преобразовать речь в письменный формат. Это удобно для задач в журналистике, учебе, маркетинге и, конечно, SEO. С появлением сервисов и ботов в социальных сетях процесс стал еще более доступным. Давайте рассмотрим несколько таких площадок и их возможности.
Краткое содержание поста:
Бесплатная функция расшифровки в социальных сетях есть только у «ВКонтакте». В Telegram работают специальные боты вроде SaluteSpeech — тоже бесплатный. Есть платные, например, Conspecto — уже для более объемных задач.
Можно скачать расширение в браузер, которое будет работать еще и в поисковиках с соцсетями — «Голосовой ввод текста».
В Teamlogs.su и «Блокноте для речевого ввода» нужна подписка, но они хорошо справляются с задачей.
Dictation.io — бесплатный сайт. Распознает знаки препинания, которые спикер произносит.
Otter подойдет для расшифровки английской речи.
Зачем может понадобиться конвертировать аудио в текст
Несколько типичных сценариев:
Расшифровка интервью и бесед. Преобразование аудиозаписей в текст позволяет оцифровать важную информацию и использовать ее для создания контента, например, для блогов или статей.
Транскрибирование голосовых сообщений от клиентов. Часто приходится взаимодействовать через разные каналы связи — в том числе голосовыми сообщениями. Иногда нет возможности прослушать их, тогда и стоит воспользоваться сервисами.
Фиксация идей и заметок. Рабочие мысли приходят в голову в самый неожиданный момент, когда нет возможности или желания сразу приступить к их записи. Аудио в таком случае — отличный способ зафиксировать идею.
Для помощи в расшифровке аудио в текст есть сервисы. Мы составили список из программ и ботов в социальных сетях, их существует больше, но мы выбрали самые удачные. Некоторые работают с русскими, некоторые с иностранными текстами. Всеми сервисами из подборки можно пользоваться бесплатно, но в некоторых нужно будет зарегистрироваться.
Сервисы для перевода речи в текст
Teamlogs.ru
Возможности: русский и английский языки, любые форматы аудио и видео, онлайн-редактор с прослушиванием, оплата со счета юрлица и ИП.
Онлайн-сервис для распознавания и расшифровки аудио и видео в текст. Сервис принимает файлы любых форматов и с помощью нейросетей преобразует их в текстовую расшифровку. Teamlogs.ru поддерживает распознавание на русском и английском языках, автоматически расставляет знаки препинания и делит текст на спикеров. Экспорт стенограммы доступен в *.docx, *.xlsx и *.srt форматах.
Расшифровку можно прослушивать и редактировать онлайн, прямо в браузере, для этого в сервисе предусмотрен текстовый редактор.
Каждому новому пользователю, подтвердившему почту, дается 15 тестовых минут. Далее для продолжения использования сервиса можно приобрести дополнительные минуты: минимальный тариф начинается от 6 рублей за минуту. Платить можно не только картой, но и со счета юрлица или ИП, для этого необходимо запросить счет в специальной форме.
В Teamlogs.ru можно создавать Организации и работать над расшифровками в команде. Организации имеют общий счет, также можно настраивать уровни доступа для коллег и следить за статистикой расходов.
Блокнот для речевого ввода
Возможности: перевод диктуемых слов в текст, транскрибирование речи из аудио и видео с Ютуба.
Сервис автоматически расшифровывает произносимые слова по ходу надиктовки, причем умеет распознавать знаки препинания, если отметить пункт «Заменять слова пунктуации». Мы надиктовали ему «Привет восклицательный знак мы тестируем запятая как справляется сервис с расшифровкой текста точка» и так далее, самые часто употребляемые знаки он распознал, но не справился с многоточием, тире, скобками и кавычками.
Транскрибирование текстов из загруженных аудиозаписей и из видео с Ютуба происходит в реальном времени при воспроизведении. Загружаем файл в сервис или указываем ID видео (символы после https://www.youtube.com/watch?v=), нажимаем «Включить запись».
Бесплатно сервис работает с транскрибированием онлайн без ограничений, а также с распознаванием голоса на аудио и видео не дольше 15 минут.
Сервис не идеальный, но работает бесплатно, прост в управлении и не требует регистрации. Результат расшифровки может быть довольно чистым — всё зависит от дикции и скорости речи. Лишний повод потренироваться, если диктуете для себя, но нужно привыкнуть называть знаки препинания, если не хочется расставлять их потом.
Инструмент полезен, когда нужно надиктовать себе материал для текста или в заметку, расшифровать подкаст или интервью. Его можно включить фоном в процессе интервью, чтобы сервис расшифровывал речь в реальном времени.
Расширение «Голосовой ввод текста» для Google Chrome
Возможности: диктовка текста в соцсетях, строке поиска и на сайтах. Диктовка в приложениях Windows,Linux и Mac.
От сервиса «Голосовой блокнот» есть браузерное расширение для переписки в соцсетях и речевого ввода текста на сайтах, а еще дополнительный модуль для использования в приложениях Windows.
Расширение для соцсетей и форумов
Расширение умеет переводить голос в текст: можно диктовать поисковые запросы, сообщения в социальных сетях и на форумах.
Попробуем надиктовать сообщение в ВКонтакте. Открываем диалог, кликаем правой кнопкой мыши и выбираем расширение.
Ввод подсвечивается красным, в браузере появляется окно разрешения доступа к микрофону. Разрешаем доступ, диктуем сообщение, называя знаки препинания: «Настя запятая привет восклицательный знак как твои дела вопросительный знак», готовый текст отображается в поле ввода.
Сложно привыкнуть диктовать знаки препинания, на их озвучивание уходит много времени, но зато не нужно расставлять запятые вручную.
Результат расшифровки зависит от дикции говорящего, но в целом расширение для ввода хорошо справляется.
Расшифровка в любых приложениях Windows, Linux и Mac
Дополнительный бесплатный модуль для интеграции открывает тестовый период режима, который позволяет вводить текст напрямую в любые браузеры и приложения Windows: Word, Excel, Google Docs и другие — в любые места, где используется клавиатура. Для этого нужно зарегистрироваться в Голосовом блокноте и установить модуль.
Как установить модуль интеграции Голосового блокнота:
После установки модуля нужно зайти в личный кабинет и включить тестовый период:
Если все прошло успешно, в блокноте у пункта Интеграция с OS появится срок действия тестового периода.
Попробуем надиктовать текст, например, в Word:
- Заходим на сайт голосового блокнота, включаем запись.
- Открываем документ в Word и начинаем диктовать.
- С задержкой в пару секунд текст появляется на экране.
Текст получилось надиктовать в Google Docs, Блокнот и почту Gmail:
Чистота расшифровки зависит от дикции, громкости и скорости речи, после диктовки скорее всего придется внести несколько правок в окончаниях и заглавных буквах.
Тестовый период длится всего три дня, его хватит, чтобы понять, нужен ли вам сервис. Плата небольшая: 100 рублей за месяц, 250 за три или 800 за год использования расширенных возможностей.
Dictation.io
Возможности: расшифровка живой речи, подкастов и озвучки видео в текст в реальном времени.
Сервис Dictation заявлен как мультиязычный, он может распознавать речь на более 100 языках. Он использует движок распознавания речи Google.
Регистрация не нужна, сервис работает бесплатно. Он похож на Голосовой блокнот: нужно кликнуть на включение распознавания, надиктовать что-то самому, включить подкаст или видео с речью, а сервис в реальном времени будет слушать и распознавать текст.
С живой диктовкой он справился довольно хорошо, распознал голосовое обозначение знаков препинания «точка», «запятая».
Расшифровка подкаста «Это реальная история — Дело об исчезновении Кристофа Сиона» получилась не очень чистой, хотя ведущая говорила внятно. Видимо, дело в скорости речи.
С транскрибированием ролика «Regional German Dialects» на канале Easy German сервис справился отлично. Ведущая с хорошей дикцией говорила в обычном не быстром темпе.
В любом случае, если человек не диктует специально для сервиса, называя знаки препинания, придется править текст. Чистота расшифровки зависит от скорости аудиодорожки, с внятной медленной речью он справляется отлично.
Dragon Dictation
Возможности: расшифровка надиктованных предложений в текст.
Программа для iOS, работает онлайн через iTunes Store. Удобно использовать на мобильном, чтобы надиктовывать на ходу замечания или идеи к новым статьям.
Программа работает бесплатно, но только на iOS.
Otter
Возможности: распознавание англоязычной речи в записи или на диктовке с возможностью идентифицировать собеседников.
Otter — сервис для англоязычной речи. Он умеет различать собеседников в записях: то есть Otter запоминает ваш голос после первичной настройки, что позволяет ему отличать вашу речь от других.
Возможны некоторые проблемы с распознаванием слов из-за специфики произношения или акцента говорящего.
Фразу «расшифруй что-нибудь на русском» он распознал так:
Можно загрузить аудио или видео с английской речью, сервис выведет текст. Некоторые спорные моменты из-за произношения могут расшифровываться неправильно.
Программа бесплатна, она будет полезна, если вы работаете с англоязычными источниками.
Боты для голосовых сообщений
Бот в ВКонтакте
Возможности:
расшифровка записанных голосовых сообщений в текст.
Бот «Что тут сказано?» расшифровывает голосовые сообщения. Войс нужно переслать в переписку с ботом, он пришлет текст в ответ — это занимает около минуты. Если надиктовать аудио напрямую в диалог с ботом, он не справится.
Бота можно пригласить в беседу, тогда он будет автоматически расшифровывать сообщения в чате. Для этого на странице группы кликаем «Пригласить в беседу».
Дальше выбираем нужный чат, куда добавим бота в качестве участника.
В настройках чата находим среди участников бота и даем ему доступ к переписке.
Теперь если кто-то из участников записывает войс, следующим сообщением бот пришлет расшифровку.
После добавления бота в чат убедитесь, что дали ему доступ к переписке — только тогда он сможет выполнять свои функции.
Automatic Speech Recognition во «ВКонтакте»
Это встроенная функция соцсети. Она работает быстрее, чем альтернативные методы — в том числе боты. Авторасшифровка основана на ASR (Automatic Speech Recognition) — автоматическом распознавании речи нейросетью.
Справляется с разными типами речи, будь то разговорная со сленгом и ненормативной лексикой или разборчивая — типичная для интервью и подкастов. Чтобы получить расшифровку, не нужно куда-то дополнительно нажимать. Как только вы получите голосовое, под ним появится текст. Результат совпадает с тем, что предлагают боты.
Бот Voicy в Телеграме
Возможности: расшифровка записанных голосовых сообщений в текст.
Бот Voicy переводит аудиосообщения или аудиофайлы в текст. Можно писать или присылать аудиофайлы боту напрямую или добавить его в чат, тогда на каждую реплику он будет отвечать ее текстовой расшифровкой.
Бота нужно настроить. Команда /language вызывает выбор языка, на котором будут записываться голосовые, /engine дает выбрать движок:
- стандартный wit.ai хорошо распознает слова, но не справляется с сообщениями длиннее 50 секунд;
- Google Speech хорошо распознает голос, работает с любой длиной, но требует оплаты.
Команда /silent отключит уведомления о том, что бот приступил к работе над войсом.
Для отключения бота в чате нужно набрать команду /files.
Если добавить бота в чат, можно транскрибировать все сообщения или только выбранные:
- /transcribeAll — для включения расшифровки всех голосовых сообщений в чате;
- /transcribe — команда поможет расшифровать конкретное голосовое сообщение.
SaluteSpeech в Telegram
Бот от «Сбера» распознает и переводит голосовые сообщения на русском, казахском и английском. Работает быстро и точно, к тому же сам расставляет знаки препинания. Так текст более читаемый и структурированный. SaluteSpeech умеет определять имена собственные и географические названия.
Чтобы воспользоваться ботом, нужно найти его через поиск и нажать в диалоге «Start». После этого перешлите ему голосовое, SaluteSpeech отправит расшифровку ответом.
Бота можно добавить в чат или канал, чтобы он автоматически транскрибировал сообщения и комментарии.
Conspecto в Telegram
Тарифы Conspecto весьма привлекательны: за преобразование аудио в текст — 3 рубля за минуту. А если вам нужен не только текст, но и конспект — 4 рубля за минуту. При этом первые 60 секунд обработки бесплатные.
Ответ бот скидывает файлом — до скачивания посмотреть, что вышло, не получится. Из форматов для загрузки предлагает *srt, *txt, *html и *doc. До этого нужно выбрать язык, который звучит в дорожке. На выбор русский, английский, немецкий, итальянский, французский и испанский. Сам бот советует пересылать аудио только на одном языке — переключение собьет искусственный интеллект с толку.
Файлы с фоновой музыкой ухудшат качество распознавания. Чистая речь даст куда более точный результат. Разрешено отправлять файлы размером не больше 2000 Мб.
Сервис Zapisano.org
Иногда нужна точная расшифровка аудиозаписи, но на внесение правок в распознанные тексты или самостоятельный набор с нуля нет времени. В этом случае пока единственный выход — делегировать ручную расшифровку кому-то другому.
За помощью можно обратиться к фрилансерам или в специализирующиеся на транскрибации фирмы. Однако в первом случае придется потратить дополнительное время на поиск ответственного исполнителя и согласование условий, а во втором — на общение с менеджерами по почте.
Для того, чтобы сэкономить время на всех этапах работы, можно воспользоваться сервисом Zapisano.org. Пока это единственный в России сервис расшифровки с личным кабинетом, куда можно быстро загрузить аудиофайлы, оплатить заказ, а после его выполнения хранить исходные аудио и стенограммы.
Интерфейс простой и понятный. После регистрации загрузите файлы или скопируйте ссылку на запись:
Сервис автоматически подсчитает длительность и спросит, какой тип расшифровки нужен — стандартный, для суда или перевод с иностранного языка. Вам нужно будет только выбрать тариф в зависимости от срочности работы:
Прогресс по задачам удобно отслеживать в личном кабинете. Там вы увидите подробности по каждой:
Интерфейс также оптимизирован под мобильные устройства, поэтому в кабинет удобно загружать записи, сделанные на телефон.
Тестовый перевод можно сделать бесплатно, так что у вас будет возможность оценить сервис.
Еще интересное:
Сервисы на основе ИИ для написания текста
Сервисы из подборки помогут сделать расшифровку интервью на аудио или видео, быстро узнать содержание голосового сообщения и упростят работу с надиктованным текстом. Качество расшифровки сильно зависит от дикции и скорости речи, поэтому всегда требует правок. Если нужно быстро получить точный текст без ошибок распознавания, единственный выход пока — делегировать ручной труд фрилансерам или специализированным сервисам.