Перейти к публикации
Форумы
Хотите присоединиться к остальным пользователям нашей команды? Не стесняйтесь зарегистрируйтесь.

Войти



  • Не рекомендуется на общедоступных компьютерах


  • Забыли пароль?

Или войдите с помощью этих сервисов

Сергей

Поисковая оптимизация сайта. Ошибки при составлении robots.txt. Устранение дублей в выдаче.

Рекомендованные сообщения

Все роботы, посещающие ваш сайт, как правило, исполнительны и соблюдают те инструкции, которые предоставляете для них, поэтому часто ошибки возникают с тем что роботу предоставлены не корректные данные для индексирования. Самая главная составляющая для индексирующего робота - это файл robots.txt. Служебный файл находится в корне вашего сайта, в нем имеется инструкция разрешающая и запрещающая индексировать страницы вашего сайта роботу.

Screenshot_1.png
 

Давайте разберем самые частые ошибки возникающие у пользователей при составлении robots.txt
Самой распространенной ошибкой в robots.txt - это конечно же запрет нужных страниц для посещений. Представьте себе ситуацию с тестированием, когда и посетители и робот с главной страницы сайта перенаправляются на какую-то внутреннюю страницу с параметром, где в зависимости от значения параметра страница выводится в том или ином формате. Но часто такую страницу с параметром запрещают в robots.txt

Screenshot_17.png

в результате чего и главная страница, и страница куда осуществляется перенаправление, исключается из поисковой выдачи, в таком случае надо проверить что определенная страница разрешена к обходу.

Вторая по популярности проблема, это закрытия промежуточных страниц для индексирующего робота.

Screenshot_18.png
В данном примере страница page.html находится внутри категории, при этом сама категория запрещена к обходу robots.txt, в такой ситуации если на страницу не ведут доступные роботу ссылки, он просто не узнает о ее наличии и существовании, не сможет проиндексировать и страница никогда не попадет в поисковую выдачу.
Третья проблема, отсутствие либо не корректное указание на адрес главного зеркала. Вы как собственник сайта, решаете по какому адресу он должен находиться в поиске. Для того что бы направить на адрес главного зеркала, существует специальная директива в файле robots.txt, и называется Host. Вы можете указать и задать роботу адрес вашего сайта который будет в поисковой выдаче.

При размещении директивы Host нужно обратить внимание на такие моменты как:

  • директива Host в rbots.txt должна расположена всего один раз;
  • сама по себе директива должна быть корректной, включать в себя префикс<www> или без<www> если он не используется; 
  • обязательно указание протокола http или https, если используете доменное имя на кириллице, обязательно доменное имя должно быть закодировано в Unicode.  

Не допустить ошибки в файле robots.txt поможет простой инструмент в Вебмастере - анализатор robots.txt, можно загрузить как уже имеющийся файл, так и просто текстовый какой-то текстовый документ, для проверки его корректности.

Screenshot_5.png

Загрузили, можно указать адреса страниц которые хотите, нажали кнопку "Проверить", посмотрели на результат, страница доступна для обхода роботом или нет, и какие ошибки в файле возникают.

Screenshot_6.png

После скачивания роботом robots.txt он обновляет политики обхода и понимает что можно индексировать, что нельзя. Если страницу индексировать можно, он обращается к ней и скачивает html документ, сам по себе документ html выглядит примерно следующим образом

Screenshot_7.png

Это определенный набор тегов, скриптов, CSS, текстового содержимого, из которого робот достает самые важные части:

  • Мета теги;
  • контент (текстовое содержимое) - для того чтобы понять о чем идет речь на странице;
  • получает внутренние ссылки на страницы сайта, для того чтобы в дальнейшем их проиндексировать.

Соответственно при проверке корректности составления html кода, мы так же проверяем вот эти три больших пункта (указанных выше).

Сама по себе проверка довольно-таки простая, открываете в любом браузере исходный код нужной вам страницы, делаете поиск (ctrl+F), в данном случае вставляете тег title и смотрите, где он начинается, где заканчивается, а так же его содержимое.

Screenshot_9.png

Вот небольшой чек лист для того чтобы понимать что именно и как нужно проверять в исходном коде страниц поиска

Screenshot_10.png

  • Во-первых, как я уже и говорил, нужно проверить содержимое тегов title и description, потому что как правило из них может составляться описание вашей страницы в результатах поиска.
  • Во-вторых, обязательно открывайте количество открывающих и закрывающих тегов noindex, они должны совпадать. Будете смеяться, но наиболее частой причиной не нахождения страниц по каким либо запросам, заключается в том что на странице в исходном коде находится тег noindex который не закрыт, в результате робот просто не видит большую часть содержимого страницы и не может понять о чем речь на ней.
  • В-третьих, обязательно проверяйте корректность установленных ссылок на внутренние страницы вашего сайта, если вы используете https протокол, обязательно этот протокол должен быть указан.
  • Это же относится и к атрибутике rel=<canonical>, если он используется на сайте.
  • Обратите внимание что важный контент на странице не должен загружаться с помощью скриптов и AJAX, в этом случае робот просто не получит текстовое содержимое, не поймет что вообще за страница и зачем ее включать в поиск.

Если в этом направлении вы все сделали верно, то далее вас поджидает другая опасность - это дубли страниц.

Screenshot_11.png

Под дублями мы понимаем несколько страниц одного сайта, которые видны по разным адресам, но при этом содержит абсолютно одинаковое содержание. Основная опасность дублей в том, что при их наличии может смениться релевантная страница в поисковой выдаче, может попасть страница по не нужному вам адресу и конкурировать с основной страницей которую вы продвигаете по каким либо запросам. Плюс ко всему огромное количество конкурирующих страниц, тормозят обход с сайта роботом. Я думаю, почти все вебмастера уверены что на их ресурсе нет никаких дублирующих страниц. Хочу немножко вас расстроить, на самом деле дубли есть практически на всех сайтах в рунете.


Каким образом их можно найти?  

Screenshot_12.png

В Вебмастере есть отличный инструмент, он называется "Страницы в поиске", нажмете на кнопку "Исключенные", вы получите график тех страниц которые не участвуют в поиске, внизу, выбрав сортировку "Удаленные страницы со статусом дубль" как раз поймете какие страницы, робот считает дублирующими на вашем сайте.

Screenshot_13.png

Вот вы нашли дубли на вашем сайте, что теперь с ними делать?

  • Во-первых, если это служебные страницы сайта, например, страницы действий, страницы с метками, сортировки и другие подобные, которые не должны быть в поиске, то их стоит запретить в вашем robots.txt;
  • Во-вторых, если вы столкнулись с дублями обоснованными тем что на сайте такая конфигурация, то-есть один и тот же товар может находиться в нескольких категориях, либо есть страницы с пагинацией.

Screenshot_14.png

Для подобных страниц, я рекомендую установить атрибутику rel="canonical" тега с указанием канонической страницы, той которая должна участвовать в поисковой выдаче.

  • В-третьих, это явные дубли такие как: со слэшем на конце и без него, для них можно использовать 301 редирект, для того чтобы указать роботу какая именно страница должна находиться в поисковой выдаче.

Screenshot_15.png

По поводу данной теме мне в группе некоторые пользователи задавали вопросы:
Вопрос:
Как решить проблему с тем что робот считает два разных каталога дублями, в итоге один из важных разделов полностью пропадает?
Ответ:
Робот при определении дублирования, сравнивает текстовое содержимое страницы, если эти каталоги очень похожи, кажется что на них можно добавить больше отличающегося контента, больше какого-то уникального контента, отзывов (если речь идет о товарах), рекомендаций и подобное, то-есть покажите для робота, что эти страницы действительно отличаются по содержимому, тогда они обе смогут находиться в поиске и показываться по запросам пользователей.
Вопрос:
Иногда вижу что по одной ключевой фразе в ТОП 10 находится две разные страницы одного и того же сайта, это как?
Ответ:
Действительно в некоторых случаях по определенных запросах может показываться до двух страниц от одного и того же ресурса, если показывается больше страниц, следует написать в поддержку Яндекса и привести пример данной ситуации.
Вопрос:
Быстрые ссылки не определяются вообще никак, хотя все рекомендации соблюдены.
Ответ:
Быстрые ссылки определяются специальным алгоритмом полностью автоматически и их появление зависит от кучи различных факторов, если вы выполнили все рекомендации остается только ждать.

 

TEXT.RU - 100.00%

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поделиться

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

Поделиться

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.

×