Как правильно настроит файл robots.txt

Документ robots.txt - необходим для ограничивания индексирования ненужных документов на сайте поисковыми системами. Например, вы хотите, чтобы не индексировались дубли страниц, страницы административные или какие-то другие.
Также в документе robots.txt содержатся все инструкции для поисковых систем, например какой основной хост, где находится карта сайта.

Как посмотреть файл роботс

Файл роботс лежит по пути ваш домен.ru/robots.txt. Для нашего сайта это будет https://seoxl.ru/robots.txt

Как создавать и редактировать robots.txt

Создается документ в любом блокноте и сохраняется с расширением .txt. Хранится документ в корне сайта. В некоторых системах управления сайта можно редактировать файл robots через админку.

Директивы robots.txt.

Как писал ранее, в документе robots.txt. нужно прописать, какие страницы и разделы сайта нужно индексировать поисковой системе, а какие нет.
1. User-Agent - это директива, которая показывает, к какому поисковому боту будут применяться правила. Можно разделить их для Google, Яндекс, Bing. Если этой директивы нет, то ко всем поисковым системам будут применяться единые правила.
2. Disallow. - запрещает индексировать страницу, раздел сайта. Чаще всего запрещают к индексации:
- страницы пагинации - это страницы каталога;
страницы с результатом поиска на сайте;
дубли;
логи;
тех. страницы.
Нельзя закрывать через robots.txt страницы с персональными данными. К ним не должно быть доступа.
3. Allow - разрешает индексировать, применяется, когда вы через маску закрыли определенные страницы для индексации, но вам нужно среди них открыть какую-то для индексации.
4. Sitemap - показывает, где находится XML-карта сайта.
5. Clean-param - запрещает индексацию динамических параметров, например, UTM метки, работает только с Яндекс.
6. Crawl-delay - неактуальная директива, не поддерживается.
7. Host - Яндекс не поддерживает эту директиву, Google поддерживает. Определяет основное зеркало сайта.

Какие страницы исключить из индекса

Дубли - каждая страница должна быть доступна только по одному адресу. Если на вашем сайте появились технические дубли страниц и нет возможности их удалить, можно закрыть через файл robots.txt.

1. Маски для закрытия дублей:

 Disallow: /*?* 

	 Disallow: /*% 

	 Disallow: /index.php 

	 Disallow: /*PAGE_NAME=search 

	 Disallow: /*PAGE_NAME=user_post 

	 Disallow: /*PAGE_NAME=detail_slide_show

2. Закрываем страницы с неуникальным контентом.
3. Страницы с индикатором сессии
Disallow: *PHPSESSID= Disallow: *session_id=

 Disallow: *PHPSESSID= 

	 Disallow: *session_id=

4. Файлы движка сайта, файлы шаблона или панели администратора. Все страницы с неуникальным контентом. Такие документы рекомендуется скрыть от поисковых машин до того, как они попадут в индекс.

 Disallow: /bitrix/ 

	 Disallow: /upload/ 

	 Disallow: /search/akcyinterval

6. Любую страницу, которую вам нужно запретить индексировать. Структура Robots.txt

Кириллица в файле Robots

Писать на русском языке нельзя, точнее можно, но поисковые системы не поймут.

Структура файла robots.txt

Так выглядит стандартный шаблон структуры файла robots обычного веб-сайта:

 User-agent: *

	 Disallow:  /news/

	 Disallow: */?from=*

	 Disallow: /bitrix/

	 Disallow: /upload/

	 Disallow: /search/

	 Allow: /search/map.php

	 Disallow: /club/search/

	 Disallow: /club/group/search/

	 Disallow: /club/forum/search/

	 Disallow: /communication/forum/search/

	 Disallow: /communication/blog/search.php

	 Disallow: /club/gallery/tags/

	 Disallow: /examples/my-components/

	 Disallow: /examples/download/download_private/

	 Disallow: /auth/

	 Disallow: /auth.php

	 Disallow: /personal/

	 Disallow: /communication/forum/user/

	 Disallow: /e-store/paid/detail.php

	 Disallow: /e-store/affiliates/

	 Disallow: /club/$

	 Disallow: /club/messages/

	 Disallow: /club/log/

	 Disallow: /content/board/my/

	 Disallow: /content/links/my/

	 Disallow: /*/search/

	 Disallow: /*PAGE_NAME=search

	 Disallow: /*PAGE_NAME=user_post

	 Disallow: /*PAGE_NAME=detail_slide_show

	 Disallow: /*/slide_show/

	 Disallow: /*/gallery/*order=*

	 Disallow: /*?print=

	 Disallow: /*&print=

	 Disallow: /*register=yes

	 Disallow: /*forgot_password=yes

	 Disallow: /*change_password=yes

	 Disallow: /*login=yes

	 Disallow: /*logout=yes

	 Disallow: /*auth=yes

	 Disallow: /*action=ADD_TO_COMPARE_LIST

	 Disallow: /*action=DELETE_FROM_COMPARE_LIST

	 Disallow: /*action=ADD2BASKET

	 Disallow: /*action=BUY

	 Disallow: /*print_course=Y

	 Disallow: /*bitrix_*=

	 Disallow: /*backurl=*

	 Disallow: /*BACKURL=*

	 Disallow: /*back_url=*

	 Disallow: /*BACK_URL=*

	 Disallow: /*back_url_admin=*

	 Disallow: /*index.php$

	 Disallow: /*?p=

	 Disallow: /*SECTION_CODE*

	 Disallow: /seo_portfolio/po-trafiku/zooland/

	 Disallow: *clear_cache*

	 Disallow: */tags/*

	 Disallow: *roistat*

	 Disallow: /calculator/*

	 Disallow: /poll/*

	 Sitemap: https://seoxl.ru/sitemap.xml

Как проверить файл Robots.txt?

Открыть его по адресу ваш домен/robots.txt , также вы можете сделать анализ конкурентов.

Проверка на ошибки

Сделать это можно двумя способами:
Панель вебмастера Google Search Console.
Вебмастерская панель Яндекса.

Если у вас остались вопросы, спрашивайте.

Как настроить файл robots.txt и зачем он нужен