Как создать правильный файл Robots.txt для сайта

В статьях «Как продвигать сайт по SEO в поисковых системах» и «Как создать Sitemap.xml файл карты сайта» мы косвенно ссылались на файл robots.txt. Давайте уделим ему внимание и полностью разберем зачем он нужен, как работает, как его создать и настроить для вашего сайта. Приступим.

Что такое Robots.txt

Это вспомогательный файл, в котором приписываются команды для роботов поисковых систем, какие сегменты вашего сайта нужно индексировать, а какие нельзя.

В основном роботс.тхт используется в совокупности с картой сайта (sitemap.xml), адрес на которую так же прописывается в нём самой первой строчкой.

Карта сайта содержит все нужные URL адреса ресурса для удобства и ускорения индексации роботами поисковых систем.
Но боты могут попасть в те разделы, которые небыли указаны в логистике для оценки. Для ограничения интереса любопытства роботов-оценщиков придуман robots.txt.

robots txt shema
Почему так важно обязательно создать и правильно настроить «регулятора» действий ботов? Давайте разберем.

Для чего нужен robots.txt

Попадание в индексацию динамических страниц (результаты поиска информации), страниц-действий (Вы оставили комментарий, регистрация завершена и.т.д), страниц с не уникальным контентом (Политики конфиденциальности и Пользовательское соглашение) и любой другой информации, предназначенной исключительно для посетителей или владельца ресурса, может сказаться (и обязательно скажется!) крайне негативно на положении сайта, а так же на безопасности хранимой информации в базе данных.

Если это не пресечь на ранней стадии, в кабинете вебмастера вы сможете наблюдать обилие 400 ошибок, из разряда «404 Error. Page not found«. Это самая опасная категория ошибок для ресурса.

Само по себе наличие 400 ошибок не должно вызывать паники и беспокойства. Если была удалена какая-то страница, поисковые системы заметят это и вернут на удаленный адрес 404 ошибку.

Но если их возвращается много и на регулярной основе, это сигнал, что у сайта какие-то проблемы с функциональностью и этот факт отразится на совокупном рейтинге и позициях в поиске.

Вторая беда это появление страниц с повторяющимся содержанием. Это уже информационные страницы, предназначенные для посетителей сайта.

Например, при регистрации нового пользователя, появляется системное сообщение, в URL которого присутствует уникальный идентификатор пользователя, а значит, каждое появление такого окна будет расценено поисковыми роботами как новый контент, который нужно проиндексировать и оценить.

Так же на индексацию могут просочится персональные данные ваших подписчиков и посетителей. А это может даже привести к суду, так как противоречит основным положениям Политики Конфиденциальности.

Проблем возникающих с отсутствием или плохой настройкой содержимого «регулятора» очень много. Но к чему это приводит, думаю говорить не нужно. Стоит понимать что такие вещи воспринимаются одинаково негативно как Яндексом, так и Google.

Для предотвращения огромного спектра подобных проблем и был придуман поясняющий формат роботс.тхт. Это как приложение к важным документам, в котором содержатся пояснения и расшифровываются основные положения.

Как создать файл robots.txt

Начать создание файла очень просто, создаёте блокнот на своём компьютере, который уже по дефолту имеет разрешение .txt и начинаете вносить туда все команды. После завершения, добавить его в корневой каталог.

Если сайт был создан на CMS, как в нашем случае — WordPress, нужно скачать любой плагин поддерживающий создание robots.txt для сайта.

Так или иначе, в отличии от карты сайта, которую создать можно через специальные ресурсы или поставив отметки в нужных полях плагина и получив на выходе готовую и функционирующую логистику, директивы (команды) в роботс.тхт придется прописывать только руками.
Процесс это очень трудоёмкий и требует фундаментального понимания каждого действия.

Директивы

В robots.txt используются всего 3 типа дикертив: AllowDisallow и User-agent. Где Allow это «Позволять«, Disallow — «Запрещать» и User-agent — «тип поискового робота«.

Вся настройка заключается в понимании структуры сайта и указании сегментов какие позволить проиндексировать, а какие запретить конкретному поисковому роботу.

Полный список типов поисковых роботов вы сможете найти на официальный сайтах поисковых систем.
Мы будем работать с самыми популярными моделями создания файла robots.txt с конкретными агентами-ботами «Yandex» и «Google«.
Первыми строчками у нас будут в текстовом редакторе: «User-agent: Yandex» и «User-agent: GoogleBot«.

Людям с математическим складом ума, которые понимают что такое множества и подмножества будет достаточно легко понять как производить настройку. Остальным придется «схватывать на лету«.

Для начала, проанализируете свой сайт, подумайте какие сегменты вы бы хотели закрыть от индексации, или наоборот, что бы вы хотели проиндексировать.

Рекомендуется исходить из наличия желаемого контента для индексации, так как Позволять будет проще чем Запрещать каждый нежелательный блок. Всё зависит от Вас. Посмотрите и сопоставьте, чего больше, запретов или разрешений.

Как работать с директивами Allow и Disallow

Мы будем создавать нашу карту сайта только для двух самых популярных роботов, Яндекс и Гугл. Поэтому директива user-agent будет обращаться к Yandex и Google. Позже в примере вы всё поймете.

Для начала, будем составлять robots.txt для Яндекс бота. Как это будет выглядеть.
В первой строке вписываем:

User-agent: Yandex

Далее начинаем работу с директивами Allow / Disallow.

1) Disallow: / — команда на запрет скачивания любой информации
2) Allow: / — команда обратная перовой, то есть разрешает скачивать всё

Имейте ввиду! Две одинаковые по содержанию директивы покажут ошибку, т.к. создание противоречивой команды — неприемлимо.
Пример:

User-agent: Yandex
Disallow: /
Allow: /

Такая команда покажет ошибку и работать не будет.

после знака «/» прописываем куда мы хотим или не хотим (в зависимости с какой директивой будет использоваться команда) пустить робота на индексацию.

Пример: Я запрещаю роботу Яндекса индексировать результаты поиска пользователей.

результаты поискаВот так выглядит URL страницы поиска при вводе слова «небо«. Закроем все результаты поиска директивами.

User-agent: Yandex
Disallow: /?s=
Allow: /

В таком случае, закрыты все результаты поисковых страниц, перекрыв для оценки весь сегмент через запрет «/?s=«. Страницы поиска не будут оценены.

Теперь я хочу закрыть от оценки страницу «Сотрудничество»

сотрудничество

Disallow: /sotrudnichestvo

Теперь закроем все информационные страницы для подписчиков:

подпискаDisallow: /subscription/

Мне этого достаточно. Теперь нужно закрыть доступ к системным и административным файлам (некая константа для каждого robots.txt файла) следующими командами:

Disallow: /cgi-bin — папка на хостинге
Disallow: /wp- — все вордресс файлы

Вносим адрес расположения карты сайта (sitemap.xml) и указываем основное зеркало (Host)

Sitemap: https://wikifarm.ru/sitemap.xml —
вносится самой первой строчкой с 1 отступом от остальных директив.

Host: www.wikifarm.ru — вносится последней строчкой с 1 отступом от предыдущих директив

Собираем наш файл robots.txt в кучу и получаем готовый упрощенный файл.

Sitemap: https://wikifarm.ru/sitemap.xml

User-agent: Yandex
Disallow: /subscription/
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /wp
Allow: /

Host: www.wikifarm.ru

Простыми словами тут записано: «Обращаюсь к Яндекс боту. Запрещаю индексировать подписчиков, результаты поиска, системную папку и админ панель. Остальное можно индексировать всё. Тут располагается карта сайта а это моё основное зеркало«.

Копируем весь массив и делаем тоже самое для Google изменив юзер-агент на: GoogleBot. А так же для всех прочих ботов помимо вышеуказанных, заменив в поле агента на *. Готовый файл будет выглядеть так:

Sitemap: https://wikifarm.ru/sitemap.xml

User-agent: *
Disallow: /subscription/
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /wp
Allow: /

User-agent: Yandex
Disallow: /subscription/
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /wp
Allow: /

User-agent: GoogleBot
Disallow: /subscription/
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /wp
Allow: /

Host: www.wikifarm.ru

Сохраняем текстовый редактор и называем его соответственно.

Robots1

Есть разносторонняя информация о значении * в директиве юзер-агент. То он означает всех ботов по дефолту (тогда можно обойтись одним массивом, без дублирования команд для Яндекс и Гугл), то есть и обратная, что он обращается ко всем, кроме вышеуказанных.

Хуже не будет если вы продублируете массив команд как для конкретных ботов, так и оставшихся. Рекомендую сделать именно так. Ошибкой при проверке это не станет.

Проверим его работоспособность сервисом от Яндекса

проверка роботс.тхт

Вот так примерно выглядит наш контроллер действий роботов.
Конкретно это достаточно упрощенный и схематический пример, но рабочий. Как то так в целом он и собирается.

Скачать готовый универсальный файл Robots.txt

Сошлюсь на работу одного блогера (seogio.ru), разбираясь в тематике построения и структуры текстовика, я на его примере достаточно легко во всём разобрался в купе со статьями Яндекс Помощи.
Вот вариант seogio.ru с расшифровками (скачать можно по ссылке на сайт).

готовый robots.txt для сайтаготовый robots.txt для сайта 2готовый robots.txt для сайта 3готовый robots.txt для сайта 4

Заключение

Мы рассмотрели в статье на сколько важно наличие «регулятора» для продуктивного развития и продвижения сайта, а так же проблемы и опасности которые могут возникнуть из-за пренебрежения.

Для написания роботс.тхт нужно досконально понимать структуру и функциональность ресурса. Это был упрощенный пример для моего блога, но видов web-страниц огромное множество и у каждого портала свои особенности и специализации.

Поэтому всё-таки рекомендую обращаться к опытным вебмастерам для составления такого сложного, но важного файла, особенно если у вас интернет-магазин или другой большой и широкий по функционалу ресурс.

Правильный robots.txt залог результативного развития сайта, который жизненно необходимо настроить в самом начале. Имейте это ввиду.

Если вы поняли сам алгоритм и желаете создать более сложный файл, рекомендую почитать в Яндекс Помощи обо всех командах и как они работают совместно. С полным пониманием строения и работы вашего ресурса — всё получится.

По всем вопросам вы можете связаться со мной через «Контакты» или оставив свой комментарий после записи.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Оцените нашу статью, была ли она Вам полезна?)
Загрузка...

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Яндекс.Метрика