Перейти к содержанию
Проект Vsem Money
Сергей

Поисковая оптимизация сайта. Ошибки при составлении robots.txt. Устранение дублей в выдаче.

Рекомендуемые сообщения

Все роботы, посещающие ваш сайт, как правило, исполнительны и соблюдают те инструкции, которые предоставляете для них, поэтому часто ошибки возникают с тем что роботу предоставлены не корректные данные для индексирования. Самая главная составляющая для индексирующего робота - это файл robots.txt. Служебный файл находится в корне вашего сайта, в нем имеется инструкция разрешающая и запрещающая индексировать страницы вашего сайта роботу.

Screenshot_1.png
 

Давайте разберем самые частые ошибки возникающие у пользователей при составлении robots.txt
Самой распространенной ошибкой в robots.txt - это конечно же запрет нужных страниц для посещений. Представьте себе ситуацию с тестированием, когда и посетители и робот с главной страницы сайта перенаправляются на какую-то внутреннюю страницу с параметром, где в зависимости от значения параметра страница выводится в том или ином формате. Но часто такую страницу с параметром запрещают в robots.txt

Screenshot_17.png

в результате чего и главная страница, и страница куда осуществляется перенаправление, исключается из поисковой выдачи, в таком случае надо проверить что определенная страница разрешена к обходу.

Вторая по популярности проблема, это закрытия промежуточных страниц для индексирующего робота.

Screenshot_18.png
В данном примере страница page.html находится внутри категории, при этом сама категория запрещена к обходу robots.txt, в такой ситуации если на страницу не ведут доступные роботу ссылки, он просто не узнает о ее наличии и существовании, не сможет проиндексировать и страница никогда не попадет в поисковую выдачу.
Третья проблема, отсутствие либо не корректное указание на адрес главного зеркала. Вы как собственник сайта, решаете по какому адресу он должен находиться в поиске. Для того что бы направить на адрес главного зеркала, существует специальная директива в файле robots.txt, и называется Host. Вы можете указать и задать роботу адрес вашего сайта который будет в поисковой выдаче.

При размещении директивы Host нужно обратить внимание на такие моменты как:

  • директива Host в rbots.txt должна расположена всего один раз;
  • сама по себе директива должна быть корректной, включать в себя префикс<www> или без<www> если он не используется; 
  • обязательно указание протокола http или https, если используете доменное имя на кириллице, обязательно доменное имя должно быть закодировано в Unicode.  

Не допустить ошибки в файле robots.txt поможет простой инструмент в Вебмастере - анализатор robots.txt, можно загрузить как уже имеющийся файл, так и просто текстовый какой-то текстовый документ, для проверки его корректности.

Screenshot_5.png

Загрузили, можно указать адреса страниц которые хотите, нажали кнопку "Проверить", посмотрели на результат, страница доступна для обхода роботом или нет, и какие ошибки в файле возникают.

Screenshot_6.png

После скачивания роботом robots.txt он обновляет политики обхода и понимает что можно индексировать, что нельзя. Если страницу индексировать можно, он обращается к ней и скачивает html документ, сам по себе документ html выглядит примерно следующим образом

Screenshot_7.png

Это определенный набор тегов, скриптов, CSS, текстового содержимого, из которого робот достает самые важные части:

  • Мета теги;
  • контент (текстовое содержимое) - для того чтобы понять о чем идет речь на странице;
  • получает внутренние ссылки на страницы сайта, для того чтобы в дальнейшем их проиндексировать.

Соответственно при проверке корректности составления html кода, мы так же проверяем вот эти три больших пункта (указанных выше).

Сама по себе проверка довольно-таки простая, открываете в любом браузере исходный код нужной вам страницы, делаете поиск (ctrl+F), в данном случае вставляете тег title и смотрите, где он начинается, где заканчивается, а так же его содержимое.

Screenshot_9.png

Вот небольшой чек лист для того чтобы понимать что именно и как нужно проверять в исходном коде страниц поиска

Screenshot_10.png

  • Во-первых, как я уже и говорил, нужно проверить содержимое тегов title и description, потому что как правило из них может составляться описание вашей страницы в результатах поиска.
  • Во-вторых, обязательно открывайте количество открывающих и закрывающих тегов noindex, они должны совпадать. Будете смеяться, но наиболее частой причиной не нахождения страниц по каким либо запросам, заключается в том что на странице в исходном коде находится тег noindex который не закрыт, в результате робот просто не видит большую часть содержимого страницы и не может понять о чем речь на ней.
  • В-третьих, обязательно проверяйте корректность установленных ссылок на внутренние страницы вашего сайта, если вы используете https протокол, обязательно этот протокол должен быть указан.
  • Это же относится и к атрибутике rel=<canonical>, если он используется на сайте.
  • Обратите внимание что важный контент на странице не должен загружаться с помощью скриптов и AJAX, в этом случае робот просто не получит текстовое содержимое, не поймет что вообще за страница и зачем ее включать в поиск.

Если в этом направлении вы все сделали верно, то далее вас поджидает другая опасность - это дубли страниц.

Screenshot_11.png

Под дублями мы понимаем несколько страниц одного сайта, которые видны по разным адресам, но при этом содержит абсолютно одинаковое содержание. Основная опасность дублей в том, что при их наличии может смениться релевантная страница в поисковой выдаче, может попасть страница по не нужному вам адресу и конкурировать с основной страницей которую вы продвигаете по каким либо запросам. Плюс ко всему огромное количество конкурирующих страниц, тормозят обход с сайта роботом. Я думаю, почти все вебмастера уверены что на их ресурсе нет никаких дублирующих страниц. Хочу немножко вас расстроить, на самом деле дубли есть практически на всех сайтах в рунете.


Каким образом их можно найти?  

Screenshot_12.png

В Вебмастере есть отличный инструмент, он называется "Страницы в поиске", нажмете на кнопку "Исключенные", вы получите график тех страниц которые не участвуют в поиске, внизу, выбрав сортировку "Удаленные страницы со статусом дубль" как раз поймете какие страницы, робот считает дублирующими на вашем сайте.

Screenshot_13.png

Вот вы нашли дубли на вашем сайте, что теперь с ними делать?

  • Во-первых, если это служебные страницы сайта, например, страницы действий, страницы с метками, сортировки и другие подобные, которые не должны быть в поиске, то их стоит запретить в вашем robots.txt;
  • Во-вторых, если вы столкнулись с дублями обоснованными тем что на сайте такая конфигурация, то-есть один и тот же товар может находиться в нескольких категориях, либо есть страницы с пагинацией.

Screenshot_14.png

Для подобных страниц, я рекомендую установить атрибутику rel="canonical" тега с указанием канонической страницы, той которая должна участвовать в поисковой выдаче.

  • В-третьих, это явные дубли такие как: со слэшем на конце и без него, для них можно использовать 301 редирект, для того чтобы указать роботу какая именно страница должна находиться в поисковой выдаче.

Screenshot_15.png

По поводу данной теме мне в группе некоторые пользователи задавали вопросы:
Вопрос:
Как решить проблему с тем что робот считает два разных каталога дублями, в итоге один из важных разделов полностью пропадает?
Ответ:
Робот при определении дублирования, сравнивает текстовое содержимое страницы, если эти каталоги очень похожи, кажется что на них можно добавить больше отличающегося контента, больше какого-то уникального контента, отзывов (если речь идет о товарах), рекомендаций и подобное, то-есть покажите для робота, что эти страницы действительно отличаются по содержимому, тогда они обе смогут находиться в поиске и показываться по запросам пользователей.
Вопрос:
Иногда вижу что по одной ключевой фразе в ТОП 10 находится две разные страницы одного и того же сайта, это как?
Ответ:
Действительно в некоторых случаях по определенных запросах может показываться до двух страниц от одного и того же ресурса, если показывается больше страниц, следует написать в поддержку Яндекса и привести пример данной ситуации.
Вопрос:
Быстрые ссылки не определяются вообще никак, хотя все рекомендации соблюдены.
Ответ:
Быстрые ссылки определяются специальным алгоритмом полностью автоматически и их появление зависит от кучи различных факторов, если вы выполнили все рекомендации остается только ждать.

 

TEXT.RU - 100.00%

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти


×