Секретный доклад YaC 2018: под капотом Алисы, новые Я.Диалоги и Яндекс.Станция

29 мая в Москве проходит конференция Yet another Conference 2018. В ходе мероприятия директор по технологиям Яндекса Михаил Парахин рассказал, как устроена Алиса – что находится у нее «под капотом» и как она функционирует.

За распознавание голоса в сервисе отвечает технология Speechkit. При этом зачастую задача по распознаванию бывает довольно сложной: Алисе приходится иметь дело с различными затруднениями.

Чтобы научить помощницу распознавать речь, специалисты Яндекса собрали около 1 млрд голосовых сообщений за 3 года.

За формирование ответов Алисы отвечает технология Turing. Вопросы пользователей проецируются в семантическое пространство высокой размерности. На скриншоте ниже показано, как это происходит: каждая точка – это высказывание, а разными цветами обозначены различные темы.


В процессе обучения точки из одной темы становятся ближе друг к другу:


При этом разные темы плавно перетекают друг в друга. Так, тема о погоде переходит в разговор об одежде.

Выбрав ответ, Алиса должна произнести его. За это отвечает технология Text-to-speech. Специалисты Яндекса записали с актерами 360 тысяч слов, предназначенных для ответов на пользовательские вопросы. Чтобы получить голос, приближенный к человеческому, потребовалось собрать также более 1 млн фонем, а затем «пройтись» по ним нейросетью, чтобы сгладить звучание. Таким образом удалось получить речь, приближенную к человеческой.

Теперь у Алисы появились компьютерное зрение и музыкальный слух. Если показать Алисе фотографию, она поймёт, что на ней изображено, а если включить музыку, то она подскажет песню и предложит послушать её в Я.Музыке. Кроме того, Алиса научилась распознавать по фото модель и марку машины, породу кошки или собаки, незнакомое здание или памятник, знаменитость или произведение искусства. Если на фотографии есть текст, Алиса предложит распознать его и перевести на русский или другой язык с помощью Яндекс.Переводчика. А увидев смартфон, пару туфель или другой товар – найдёт похожие варианты в поиске Яндекса или в Я.Маркете.

Выступление Парахина продолжил руководитель управления машинного интеллекта Яндекса Михаил Биленко. Он сообщил о запуске платформы Яндекс.Диалоги, предназначенной для создания навыков Алисы и чатов в поиске. Через Диалоги можно подключать и ботов, и операторов – это первая гибридная платформа навыков.

Я.Диалоги были в бете последние три месяца. За это время команда Яндекса обкатала первые три когорты навыков.

Также в ходе секретного доклада Аркадий Волож презентовал Яндекс.Станцию – мультимедийную платформу со встроенной Алисой.

Директор Яндекса по экспериментальным продуктам Константин Круглов отметил, что Станция стала первым в мире устройством с голосовым помощником, которое подключается к телевизору напрямую и работает без пульта, только на голосовом управлении. Устройство разработано инженерами Яндекса. Матрица из семи чувствительных микрофонов помогает Алисе слышать через всю комнату. Стоимость устройства составит 9990 рублей. Купить его можно будет уже этим летом. Узнать о старте продаж можно будет, оставив заявку на сайте.

Также Яндекс запускает единую подписку на свои сервисы – Яндекс.Плюс. Владельцы подписки будут пользоваться особыми условиями во всех сервисах Яндекса, участвующих в проекте. Сейчас в этот список входят Музыка, Такси, Драйв, КиноПоиск, Диск и новый маркетплейс. Пользователи смогут без ограничений слушать музыку, смотреть кино без рекламы, получать скидки на такси и каршеринг и пользоваться другими расширенными возможностями экосистемы Яндекса.

Конференция продолжается, смотрите трансляцию здесь.

(Голосов: 5, Рейтинг: 5)