Перейти к публикации
Форумы
Хотите присоединиться к остальным пользователям нашей команды? Не стесняйтесь зарегистрируйтесь.

Войти



  • Не рекомендуется на общедоступных компьютерах


  • Забыли пароль?

Или войдите с помощью этих сервисов

InvestMen

Новый алгоритм поиска в Яндексе - "Королев"

Рекомендованные сообщения

                                                     Screenshot_1.png

                                                              В чем же суть нового поискового алгоритма королев?

Для того чтобы ответить на этот вопрос, давайте вернемся немного в назад в историю. Первые поисковые системы (ПС) появившиеся в начале 21 века были очень просты. По сути они делали только лишь одну элементарную операцию, показывали пользователям страницы, которые где-то содержат слова из их поискового запроса. Со временем алгоритмы запроса усложнялись, а точность или как говорят специалисты, релевантность поисковых систем увеличивалась. Например, специалисты занимающиеся разработкой поисковых систем достаточно оперативно увидели, что страницам содержащие хороший ответ на запрос пользователя, совсем не обязательно иметь в себе все слова запросы, иногда хватит и части слов. Так же хорошо если эти слова и запросы расположены не где попало на странице, а кучней друг к другу. Но при всех этих новшествах поиск продолжал быть ПС только по словам, со временем специалисты занимающиеся качеством ПС стали все больше убеждаться в том что для создания действенного поиска, нужно научиться искать не по словам, а по смыслу, по науке это называется семантический поиск.
Таким образом разработчики Яндекса поняли что хорошо бы научиться лучше понимать суть запросов и интернет страниц. В прошлом году ПС создала новый алгоритм ранжирования "Палех", где были сделаны первые штрихи в направлении семантического поиска, а на днях был запущен новый алгоритм ранжирования "Королев".
                                                                                     Почему выбрали такое название?

Сергей Павлович Королев внедрил в жизнь мечту людей о полетах в космос. Для Яндекса этот шаг является таким же важным технологическим прорывом к мечте о поиске, который подсознательно понимает пользователей.

В основе нового алгоритма ПС лежат искусственные нейронные сети (ИНС). Возникнув еще в начале XX века, сейчас нейронные модели переживают период не вероятно активного развития. Базовым элементом ИНС является нейрон, он имеет несколько входов и единственный выход. Один отдельно взятый нейрон умеет выполнять только чрезвычайно простую операцию, он просто суммирует то что подается ему на входы и после некоего преобразования, то что получилось дальше.

                                                                     Screenshot_4.png

Но если взять не один нейрон, а много и объединить в нейронную сеть, то такая модель уже сможет выполнять достаточно сложные задачи.
Самое интересное свойство ИНС состоит в том, что их можно обучать, системе можно показать множество обучающих примеров и таким образом направить ее на выполнение нужных задач.
                                                                             Как же научить ИНС понимать суть текста?
Свою работу в этом направлении Яндекс начал с достаточно простой и хорошо известной из научных публикаций модели DSSM (Deep Structured Semantic Model) - эта модель состоит как бы из двух частей, которые соответствуют запросу и интернет страничке.

                                                                     Screenshot_5.png

На вход модели подаются слова, внутри у нее имеется несколько слоев нейронов, а на выходе ПС хочет получать оценку того на сколько пара текстов схожа по сути.                                                            

Для настройки ИНС, необходимо указать ей большое количество положительных и отрицательных примеров.

                                                                     Screenshot_6.png
Положительный пример - это пара текстов которые как-то связаны по смыслу. Соответственно отрицательный пример - пара которая не связана по смыслу.

                                                                                                          Откуда их брать?
Здесь на помощь придут участники пользующиеся поисковой системой Яндекс, ежедневно в нее входит большое число кликов и переходов по выдаче. Таким образом в распоряжении ПС находится колоссальный объем пользовательской информации, и именно на основании этого большого пользовательского поведения Яндекс составит обучающие примеры для сети.

Упрощенно можно сказать что если по какому-то запросу пользователи очень часто заходят в одну и ту же интернет страничку, то скорее всего этот запрос и эта страница (текст страницы) как-то связаны по смыслу. Ну а найти отрицательные примеры для обучения намного проще, можно просто взять пару случайных текстов и объявить их как семантически не связанными текстами.
Подавая такие обучающие сигналы на вход модели можно обучить ее отличать не связанные по смыслу пары текстов, от связанных по смыслу. После тренировки модель приобретает способность представлять текст в виде особого набора чисел - под названием семантический вектор.

                                                                 Screenshot_7.png


В модели Яндекса обычно используется вектор размером 300, то-есть представляется текст в виде 300 чисел. Семантический вектор обладает одним очень интересным свойством. Чем ближе тексты по смыслу, тем больше будет сходство у чисел этих векторов. Иными словами можно сравнив два семантических вектора оценить смысловую совокупность двух текстов.

В поиске Яндекса нейронные модели использовались уже достаточно давно, но в новом запуске алгоритма "Королев" существенно увеличилось влияние нейронных сетей на ранжирование.


Одна из наиболее интересных новинок этого запуска состоит в применении нейронных сетей в тексте документов. Конечно при поиске по словам ПС давно умели искать слова в теле страницы, но если говорить о смысловом поиске, то раньше были только модели оценивающие только близость запроса и заголовка страницы, теперь же внедрилась модель которая при оценке смысловой близости смотрит не только на заголовок, но и на все тело страницы.
Еще одна новинка связана с тем, что помимо заголовка и текста страницы Яндекс научил нейронные модели так же учитывать еще и тексты запросов по которым раньше приходили пользователи.

 Чтобы запустить ракету в космос, не достаточно теоретических расчетов и труда инженеров, нужно еще очень много людей и масса экспериментов, так и с поиском. Существует большое число людей которые ежедневно выполняют задания тестировать алгоритмы Яндекса и постоянно поднимать планку качества поиска.
                                                           Как люди помогают обучать искусственный интеллект?
За последние несколько лет технологии машинного обучения совершили колоссальный рывок, сделав возможным то, что еще вчера казалось фантастикой. Так мы уже видели, что обладая огромным количеством эталонных примеров, образцом для подражания, нейронные сети научились самостоятельно творить, писать музыку в стиле великих композиторов, или создавать картины подражая манере известных художников. Как уже было сказано выше, в поиске используются те же технологии, но в каком-то смысле задачи здесь сложнее, потому что заранее готовых эталонных примеров на которых могли бы настраиваться ПС нет. Ведь поиск это десятки миллионов уникальных запросов от самых разных пользователей, каждый из них ищет что-то свое, для того чтобы научить поиск понимать самые разные запросы пользователей и находить на них хорошие ответы, эталонные данные для выучки Яндексу приходится готовить самому.
В Яндексе уже некоторое время задачей подбора данных для машинной выучки занимаются асессоры, это специально отобранные люди которые в основном занимаются оценкой релевантности документов.

                                    Screenshot_11.png

Асессор получает реальный пользовательский запрос, случайно попавший в базу данных ПС и документы которые могли бы найтись по этому запросу, и его задача оценить на сколько тот или иной документ может быть хорошим ответом на запрос пользователя.

Кстати это не тривиально и не так просто как может показаться на первый взгляд, давайте попробуем. Вот настоящий пользовательский запрос:

[Американка космонавт певица]

всего три слова и каждый из них в отдельности не вызывает никаких вопросов, но что же имел в виду тот самый человек который задал этот запрос в поисковую строку? - на первый взгляд выглядит абсурдом, но поисковые машины выдают нам множество вариантов:

  • новость о том как американская певица Сюзанна Вега выступала в клубе "Космонавт";
  • история о Британской певице Sarah Brightman которая пыталась стать космическим туристом и даже проходила обучение в космическом городке;
  • или совсем другая история о том как американский астронавт судится с певицей Даина, за то что та разместила его фотографии в открытом космосе на обложке своего альбома.

Правильного ответа мы не знаем, что искал тот самый человек задавший этот запрос. Но для того чтобы обучить поиск ориентироваться в множестве самых разных трактовок, смыслов и понимать самые разные пользовательские запросы, Яндексу нужно обрабатывать как можно больше реальных запросов и собирать для них оценки релевантности. И от количества оценок складываемых в обучаемую базу и будет зависеть качество поиска. Поэтому на протяжении многих лет, из года в год ПС Яндекс постоянно увеличивало количество оценок в базе.

Но и сам поиск развивался, появлялся поиск по картинкам, по видео, появлялись многие внутренние классификаторы и алгоритмы. Все они работали на технологиях машинного обучения, и всем им нужны были данные для настройки, поэтому асессоры принимали участие во все большем количестве проектов. Но и конечно чтобы собирать все больше и больше данных ПС требовалось больше людей. И в какой-то момент когда асессоров Яндекса стало больше 1500 и их все одно катастрофически было мало, организаторы ПС решили, - нужно делать изменения в сторону прогресса. И тогда они создали открытую краудсорсинговую платформу, где любой желающий может зарегистрироваться как исполнитель, находить для себя интересные задания и выполнять их за вознаграждения, так же любой заказчик которому нужны данные для машинного обучения, может зарегистрироваться и размещать там свои задания.

Платформа называется "Толока", по названию старинной деревенской традиции, когда жители деревни собирались для того чтобы сообща сделать большое дело, такое что не под силу сделать одному человеку. 

Так и на этой платформе за несколько лет существования собралось уже больше миллиона толокеров, и сообща они сделали больше 2 млрд. оценок, ушедшие на обучение искусственного интеллекта. Открытие "Толоки" дало Яндексу колоссальный рывок в масштабировании и объемах собираемых данных для обучения. Так если раньше силами только асессоров они собирали миллионы оценок, то сейчас счет уже идет на миллиарды, если раньше асессоры принимали участие в десятках разных проектов, то в толоке сейчас открыто более 1500 разных типов заданий и различных проектов. Если раньше технологии Яндекса обучали чуть больше тысячи человек, то сейчас только в 2017 году, свой вклад в обучение технологий внесли больше 500 000 человек.

Требования для толокеров, а по сути правила которым Яндекс хочет научить искусственный интеллект, открыты и доступны, нет никаких секретов, все их можно видеть в инструкциях соответствующих заданий в "Толоке", а иногда специально не дается никаких инструкций и просто собирается субъективное мнение большого количества людей.

                                                                   Screenshot_3.png
Конечно если мы хотим чтобы искусственный интеллект был разумным и последовательным, очень важно чтобы данные были такие же, поэтому здесь важно качество оценок которые собирает "Толока". Понятно что среди миллионов толокеров существуют разные люди, бывают оптимисты, которые всегда ставят высокие оценки, бывают пессимисты строго подходящие к каждому заданию, да и сами задания бывают более и менее сложными, поэтому чтобы получить наиболее правдоподобные оценки, задания даются сразу нескольким людям и потом используя математические модели, выбираются итоговые оценки основываясь не только на том сколько голосов было отдано за тот или иной вариант ответа, но и учитывая степень доверия и экспертизу каждого конкретного толокера принявшего участие в задании.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поделиться

Кардинальных изменений в результатах поиска после введения нового алгоритма "Королев" не наблюдается. Так зачем же Яндекс устроил эту показуху с выступлением в планетарии, привлечением какой-то аудитории и красивыми рассказами о том что Яндекс стал еще круче и лучше? - А дело лишь в том что Яндексу на пятки наступает Google и он очень стремительно отбирает поисковый трафик у Яндекса. Разумеется они делят рынок, и те деньги которые готов вкладывать рекламодатель в рекламные продукты. Яндекс понимая что его очень плотно прижимает Google по всем статьям и для этого решил воспользоваться другими средствами привлечения внимания. В том числе и анонсы псевдо алгоритмов обещающих изменить поиск в лучшую сторону.

Screenshot_5.png.28ef97b9ef3955e2c19ecf3afab4c238.png

Если взять последнюю их рекламную кампанию, то их показали по телевизору, в интернете пестрили заголовки о том что Яндекс создал новый революционный алгоритм, то-есть они создали очень качественную информационную шумиху вокруг себя, тем самим привлекая рекламодателей на свою сторону.
Это банальная рекламная кампания которая просто хорошо взорвалась, но кардинальных изменений по качеству поиска или упрощению жизни владельцам сайтов естественно это не дает. Их показуха с нажатием красной кнопки, радость и веселье напоминают некоторые другие события,

Screenshot_4.png.b74c24a26bdbcdf25d0d1d7df4c1b887.png Screenshot_6.png.90f602caeb4d25e01bde923118c00fa4.png

когда другие люди нажимали на красную кнопку в знак того что произойдут какие-то кардинальные изменения, мир улучшится, но на самом деле все так же как и было, мир продолжают делить на части. Так же и поисковый мир делится на части и идет борьба за рекламодателей. Поэтому никаких инноваций сделано не было, в плане того чтобы были какие-то кардинальные изменения в плане поиска, они сделали просто небольшую доработку, но обернули ее в большую шумиху чтобы привлечь к себе больше внимания и не более того.
Незадолго до анонса нового алгоритма "Королев" Яндекс в рекламных блоках директа вывел четвертое объявление, тем самым понизив результаты органического поиска на нижнюю часть экрана, то-есть на первом экране монитора мы сейчас можем видеть только Яндекс Директ. Чтобы увидеть сайты нужно листать страницу ниже, а как известно не все пользователи готовы листать и тратить время на то, что они ищут и будут тыкать на то что видят на первом экране, а на первом месте будет Яндекс Директ. Соответственно чтобы там присутствовать надо платить деньги, а чтобы присутствовать на первых местах нужно платить больше остальных, вот и вся политика Яндекса. Поэтому вся эта шумиха с Королевым это просто маркетинговый ход, но очень тонко и грамотно продуманный, как бы не ругали или хвалили Яндекс, он остается лидирующим поисковиком в российском интернете, который хорошо и качественно помогает находить документацию, информацию и товары на русском языке в отличие от Google, аналогов пока нет, альтернатив тоже и нам приходится работать дальше с этой поисковой системой.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поделиться

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

Поделиться

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.

×