YaC 2020: Яндекс рассказал про новую технологию анализа текста Yati
На конференции YaC 2020 Яндекс анонсировал в «Поиске» новую технологию Yati, которая расшифровывается как Yet another transformer with Improvements. Это новая технология анализа текста, в рамках которой алгоритмы учатся распознавать связь между запросом и содержанием документов.
Тигран Худавердян, генеральный директор Яндекса в России, отметил, Поиск Ядекса перешел на анализ текста, основываясь на огромных нейросетях, на архитектуре трансформеров.
Что такое трансформер Yati
Более подробно про трансформеры и сам Yati рассказала Екатерина Серажим, она отвечает за качество ранжирования в поиске Яндекса.
Есть два этапа обучения трансформера. Классическая техника – показываем им неструктурированные тексты. Берем текст маскируем в нем какой-то процент слов и заставляем наш трансформер угадывать эти слова.
Для Yati мы усложнили задачу: мы оказывали ему не просто текст какого-то документа, а реальные поисковые запросы и тексты документов, которые видели наши пользователи. И просили Yati угадывать, какой документ понравится пользователю, а какой нет. Для этого у нас есть эталон – это экспертная разметка наших асессоров, которые оценивают по сложной шкале каждый документ, насколько он релевантен запросу.
Далее Яндекс берет этот массив данных и дообучает трансформер угадывать эту экспертную оценку – так он учится ранжировать.
Для чего используется трансформер
Тигран Худавердян привел пример: если вы не помните, как называется фильм, но примерно помните, что там было, можно именно так Яндексу сказать. Поисковая машина поймет по смыслу, какой фильм имелся ввиду и найдет его.
Почему трансформеры – это важно
По словам Екатерины Серажим, трансформеры дали Яндексу рекордный уровень в качестве поиска. Они существенно улучшили то, как работает поисковый алгоритм.
«Это самое большое изменение в поиске Яндекса за последние 10 лет, и оно заложило фундамент на следующие годы», – отмечает Тигран Худавердян.
Также на конференции YaC 2020:
Случилось что-то важное? Поделитесь новостью с редакцией.