Искусственный интеллект VK Видео стал на 25% лучше распознавать речь

VK Видео обновил алгоритмы искусственного интеллекта, который автоматически распознает речь и добавляет субтитры в видео. Нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.

Точность анализа и расшифровки выросла на 25%.

Автоматические субтитры создаются Ml-моделями. Чтобы повысить точность, аудиопоток пропускают через несколько этапов обработки, на которых нейросеть отсеивает посторонние звуки, выделяет речь и превращает ее в текст. После этого модели денормализации и пунктуации превращают распознанные слова в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой.

Планируется, что скоро нейросети будут различать голоса, что позволит разделять речь разных спикеров на отдельные реплики. Благодаря этому читать и воспринимать субтитры станет еще проще.

Субтитры в видео помогают людям с нарушениями слуха, и удобна в условиях, когда нет возможности включить звук. VK сообщает, что эта технология становится все популярнее:

Доля пользователей, использующих эту функцию в веб-версии, только за последний месяц увеличилась на 28%, и сейчас субтитрами пользуются 11% всей аудитории VK Видео.

Напомним, что с момента официального запуска в сентябре 2023 года приложение VK Видео установили более 20 млн раз.

Источник: пресс-релиз VK

(Голосов: 3, Рейтинг: 5)