8(800)200-4428
(звонок бесплатный) пн.-пт. с 10:00 до 19:00
Обратный звонок
Главная Блог Как настроить файл robots.txt и зачем он нужен
341
22.10.2022
Время чтения: 4 минуты
Поделиться

Как настроить файл robots.txt и зачем он нужен

Валерий Середов

Документ robots.txt - необходим для ограничивания индексирования ненужных документов на сайте поисковыми системами. Например, вы хотите, чтобы не индексировались дубли страниц, страницы административные или какие-то другие.
Также в документе robots.txt содержатся все инструкции для поисковых систем, например какой основной хост, где находится карта сайта.

Как посмотреть файл роботс

Файл роботс лежит по пути ваш домен.ru/robots.txt. Для нашего сайта это будет https://seoxl.ru/robots.txt

Как создавать и редактировать robots.txt

Создается документ в любом блокноте и сохраняется с расширением .txt. Хранится документ в корне сайта. В некоторых системах управления сайта можно редактировать файл robots через админку.

Директивы robots.txt.

Как писал ранее, в документе robots.txt. нужно прописать, какие страницы и разделы сайта нужно индексировать поисковой системе, а какие нет.
1. User-Agent - это директива, которая показывает, к какому поисковому боту будут применяться правила. Можно разделить их для Google, Яндекс, Bing. Если этой директивы нет, то ко всем поисковым системам будут применяться единые правила.
2. Disallow. - запрещает индексировать страницу, раздел сайта. Чаще всего запрещают к индексации:
- страницы пагинации - это страницы каталога;
страницы с результатом поиска на сайте;
дубли;
логи;
тех. страницы.
Нельзя закрывать через robots.txt страницы с персональными данными. К ним не должно быть доступа.
3. Allow - разрешает индексировать, применяется, когда вы через маску закрыли определенные страницы для индексации, но вам нужно среди них открыть какую-то для индексации.
4. Sitemap - показывает, где находится XML-карта сайта.
5. Clean-param - запрещает индексацию динамических параметров, например, UTM метки, работает только с Яндекс.
6. Crawl-delay - неактуальная директива, не поддерживается.
7. Host - Яндекс не поддерживает эту директиву, Google поддерживает. Определяет основное зеркало сайта.

Какие страницы исключить из индекса

 Дубли - каждая страница должна быть доступна только по одному адресу. Если на вашем сайте появились технические дубли страниц и нет возможности их удалить, можно закрыть через файл robots.txt.

1. Маски для закрытия дублей:
 Disallow: /*?* 
Disallow: /*%
Disallow: /index.php
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show

2. Закрываем страницы с неуникальным контентом.
3. Страницы с индикатором сессии
Disallow: *PHPSESSID= Disallow: *session_id=
 Disallow: *PHPSESSID= 
Disallow: *session_id=

4. Файлы движка сайта, файлы шаблона или панели администратора. Все страницы с неуникальным контентом. Такие документы рекомендуется скрыть от поисковых машин до того, как они попадут в индекс.
 Disallow: /bitrix/ 
Disallow: /upload/
Disallow: /search/akcyinterval 

6. Любую страницу, которую вам нужно запретить индексировать. Структура Robots.txt

Кириллица в файле Robots

Писать на русском языке нельзя, точнее можно, но поисковые системы не поймут.

Структура файла robots.txt

Так выглядит стандартный шаблон структуры файла robots обычного веб-сайта:


 User-agent: *
Disallow:  /news/
Disallow: */?from=*
Disallow: /bitrix/
Disallow: /upload/
Disallow: /search/
Allow: /search/map.php
Disallow: /club/search/
Disallow: /club/group/search/
Disallow: /club/forum/search/
Disallow: /communication/forum/search/
Disallow: /communication/blog/search.php
Disallow: /club/gallery/tags/
Disallow: /examples/my-components/
Disallow: /examples/download/download_private/
Disallow: /auth/
Disallow: /auth.php
Disallow: /personal/
Disallow: /communication/forum/user/
Disallow: /e-store/paid/detail.php
Disallow: /e-store/affiliates/
Disallow: /club/$
Disallow: /club/messages/
Disallow: /club/log/
Disallow: /content/board/my/
Disallow: /content/links/my/
Disallow: /*/search/
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*print_course=Y
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*index.php$
Disallow: /*?p=
Disallow: /*SECTION_CODE*
Disallow: /seo_portfolio/po-trafiku/zooland/
Disallow: *clear_cache*
Disallow: */tags/*
Disallow: *roistat*
Disallow: /calculator/*
Disallow: /poll/*
Sitemap: https://seoxl.ru/sitemap.xml

 Как проверить файл Robots.txt?

Открыть его по адресу ваш домен/robots.txt , также вы можете сделать анализ конкурентов.

Проверка на ошибки

Сделать это можно двумя способами:
Панель вебмастера Google Search Console.
Вебмастерская панель Яндекса.

Если у вас остались вопросы, спрашивайте.
Подпишитесь на нашу рассылку