Robots.txt для 1С-Bitrix - как настроить правильно в 2023 году?

Битрикс является одной из самых распространенных систем администрирования в российском сегменте интернета. С учетом того, что на этой CMS, с одной стороны, нередко делают интернет-магазины и в достаточной степени нагруженные сайты, а с другой стороны, битрикс оказывается не самой быстрой системой, составление правильного файла robots.txt становится еще более актуальной задачей. Если поисковый робот индексирует только то, что нужно для продвижения, это помогает убрать лишнюю нагрузку на сайт. Как и в случае истории с robots для WordPress, в интернете почти в каждой статье присутствуют ошибки. Такие случае я укажу в самом конце статьи, чтобы было понимание, почему такие команды прописывать не нужно.

Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Ниже я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо.

Правильный Robots.txt для Bitrix

Код для Robots, который прописан ниже, является базовым, универсальным для любого сайта на битриксе. В то же время, нужно понимать, что у вашего сайта могут быть свои индивидуальные особенности, и этот файл потребуется скорректировать в вашем конкретном случае.

User-agent: *               # правила для всех роботов
Disallow: /cgi-bin          # папка на хостинге
Disallow: /bitrix/          # папка с системными файлами битрикса
Disallow: *bitrix_*=        # GET-запросы битрикса
Disallow: /local/           # папка с системными файлами битрикса
Disallow: /*index.php$      # дубли страниц index.php
Disallow: /auth/            # авторизация
Disallow: *auth=            # авторизация
Disallow: /personal/        # личный кабинет
Disallow: *register=        # регистрация
Disallow: *forgot_password= # забыли пароль
Disallow: *change_password= # изменить пароль
Disallow: *login=           # логин
Disallow: *logout=          # выход
Disallow: */search/         # поиск
Disallow: *action=          # действия
Disallow: *print=           # печать
Disallow: *?new=Y           # новая страница
Disallow: *?edit=           # редактирование
Disallow: *?preview=        # предпросмотр
Disallow: *backurl=         # трекбеки
Disallow: *back_url=        # трекбеки
Disallow: *back_url_admin=  # трекбеки
Disallow: *captcha          # каптча
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: *?FILTER*=        # здесь и ниже различные популярные параметры фильтров
Disallow: *?ei=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *B_ORDER=
Disallow: *BRAND=
Disallow: *CLEAR_CACHE=
Disallow: *ELEMENT_ID=
Disallow: *price_from=
Disallow: *price_to=         
Disallow: *PROPERTY_TYPE=
Disallow: *PROPERTY_WIDTH=
Disallow: *PROPERTY_HEIGHT=
Disallow: *PROPERTY_DIA=
Disallow: *PROPERTY_OPENING_COUNT=
Disallow: *PROPERTY_SELL_TYPE=
Disallow: *PROPERTY_MAIN_TYPE=    
Disallow: *PROPERTY_PRICE[*]=
Disallow: *S_LAST=  
Disallow: *SECTION_ID=
Disallow: *SECTION[*]=
Disallow: *SHOWALL= 
Disallow: *SHOW_ALL=
Disallow: *SHOWBY=
Disallow: *SORT=
Disallow: *SPHRASE_ID=        
Disallow: *TYPE=
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Disallow: *from=            # ссылки с метками from
Allow: */upload/            # открываем папку с файлами uploads
Allow: /bitrix/*.js         # здесь и далее открываем для индексации скрипты
Allow: /bitrix/*.css
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.jpeg
Allow: /local/*.png
Allow: /local/*.gif

# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.

Директива Host

На старых сайтах вы можете увидеть директиву Host в файле robots.txt.

Host: www.site.ru

Она обозначает главное зеркало сайта. Команда стала необязательной. На данный момент все основные поисковые системы команду Host не учитывают.

Долгое время Host поддерживался Яндексом. Но с 2018-го года и российский поисковик для определения главного зеркала стал учитывать только 301-редиректы (пруф).

При этом наличие этой команды в файле robots.txt ошибкой не является.

Ошибочные рекомендации других блогеров для Robots.txt на Bitrix

Закрывать от индексации страницы пагинации
Правило Disallow: *?PAGEN_1= является ошибкой. Страницы пагинации должны индексироваться. Но на таких страницах обязательно должен быть прописан мета-тег canonical.
Закрывать файлы изображений и файлов для скачивания (DOC, DOCX, XLS, XLSX, PDF, PPT, PPTS и др.)
Это делать не нужно. Если у вас есть правило Disallow: /upload/, удалите его.
Закрывать страницы тегов и категорий
Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика.
Прописать Crawl-Delay
Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.

Правильный Robots.txt для Bitrix

Директива Host

Ошибочные рекомендации других блогеров для Robots.txt на Bitrix

Оцените статью