Битрикс является одной из самых распространенных систем администрирования в российском сегменте интернета. С учетом того, что на этой CMS, с одной стороны, нередко делают интернет-магазины и в достаточной степени нагруженные сайты, а с другой стороны, битрикс оказывается не самой быстрой системой, составление правильного файла robots.txt становится еще более актуальной задачей. Если поисковый робот индексирует только то, что нужно для продвижения, это помогает убрать лишнюю нагрузку на сайт. Как и в случае истории с robots для WordPress, в интернете почти в каждой статье присутствуют ошибки. Такие случае я укажу в самом конце статьи, чтобы было понимание, почему такие команды прописывать не нужно.
Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Ниже я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо.
User-agent: * # правила для всех роботов Disallow: /cgi-bin # папка на хостинге Disallow: /bitrix/ # папка с системными файлами битрикса Disallow: *bitrix_*= # GET-запросы битрикса Disallow: /local/ # папка с системными файлами битрикса Disallow: /*index.php$ # дубли страниц index.php Disallow: /auth/ # авторизация Disallow: *auth= # авторизация Disallow: /personal/ # личный кабинет Disallow: *register= # регистрация Disallow: *forgot_password= # забыли пароль Disallow: *change_password= # изменить пароль Disallow: *login= # логин Disallow: *logout= # выход Disallow: */search/ # поиск Disallow: *action= # действия Disallow: *print= # печать Disallow: *?new=Y # новая страница Disallow: *?edit= # редактирование Disallow: *?preview= # предпросмотр Disallow: *backurl= # трекбеки Disallow: *back_url= # трекбеки Disallow: *back_url_admin= # трекбеки Disallow: *captcha # каптча Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров Disallow: *?ei= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *B_ORDER= Disallow: *BRAND= Disallow: *CLEAR_CACHE= Disallow: *ELEMENT_ID= Disallow: *price_from= Disallow: *price_to= Disallow: *PROPERTY_TYPE= Disallow: *PROPERTY_WIDTH= Disallow: *PROPERTY_HEIGHT= Disallow: *PROPERTY_DIA= Disallow: *PROPERTY_OPENING_COUNT= Disallow: *PROPERTY_SELL_TYPE= Disallow: *PROPERTY_MAIN_TYPE= Disallow: *PROPERTY_PRICE[*]= Disallow: *S_LAST= Disallow: *SECTION_ID= Disallow: *SECTION[*]= Disallow: *SHOWALL= Disallow: *SHOW_ALL= Disallow: *SHOWBY= Disallow: *SORT= Disallow: *SPHRASE_ID= Disallow: *TYPE= Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Disallow: *from= # ссылки с метками from Allow: */upload/ # открываем папку с файлами uploads Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты Allow: /bitrix/*.css Allow: /local/*.js Allow: /local/*.css Allow: /local/*.jpg Allow: /local/*.jpeg Allow: /local/*.png Allow: /local/*.gif # Укажите один или несколько файлов Sitemap Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz
В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.
На старых сайтах вы можете увидеть директиву Host в файле robots.txt.
Host: www.site.ru
Она обозначает главное зеркало сайта. Команда стала необязательной. На данный момент все основные поисковые системы команду Host не учитывают.
Долгое время Host поддерживался Яндексом. Но с 2018-го года и российский поисковик для определения главного зеркала стал учитывать только 301-редиректы (пруф).
При этом наличие этой команды в файле robots.txt ошибкой не является.
Disallow: *?PAGEN_1=
является ошибкой. Страницы пагинации должны индексироваться. Но на таких страницах обязательно должен быть прописан мета-тег canonical.Disallow: /upload/
, удалите его.В этой статье я подробно раскрою процесс работы с Google Core Web Vitals для качественной технической оптимизации сайта. А также…
В этой статье я приведу перечень пунктов, которые необходимо проверить, чтобы предусмотреть все основные ключевые факторы, которые важны при оптимизации…
В интернете можно найти много публикаций на тему, как составить лучший (или даже самый лучший) файл robots.txt для Wordpress. При…
Интервью для проекта газеты Комсомольская Правда «Образование в России и за рубежом». (далее…)
С ноября 2020 года поисковый робот Google, который индексирует сайты в интернете, начнет производить сканирование по протоколу HTTP/2. Если ваш…
Наверное, я не слишком ошибусь, если скажу, что скоро будет 10 лет мифу о том, что «SEO умерло». Тем не…