Технология под названием ASR (Automatic Speech Recognition) от ВКонтакте создана на базе нейросети. Она способна считывать голос и расшифровывать его в текст. Соцсеть использует ее для перевода голосовых сообщений в текстовые, создания субтитров к видео и прочих функций. Теперь эта технология стала доступна для всех разработчиков.
ASR способна расшифровывать аудиофайлы длиной до 100 минут, слушать и конспектировать лекции, различать плохую речь и произношение, знает сленговые выражения и ненормативную лексику.
Нейросеть понимает интонационные паузы, разбивает текст на предложения и сама ставит знаки препинания. Также доступна автоматическая функция по удалению шумов и пауз в расшифровке.
ASR распознает два различных формата речи: спонтанный и нейтральный. К первому относится разговорный стиль, без цензуры, а ко второй — более качественная и поставленная речь, как на телешоу или радиоэфире.
Диапазон применения технологии широк: от образования и автоматического создания субтитра к роликам до сервисов доставки, ботов в мессенджера или голосового управления а видеоиграх. Для бесплатного пользования доступно 100 минут расшифровки в сутки.