Категории: Google SEO Яндекс

Robots.txt для MODx

Сайты на системе администрирования MODx встречаются не так часто, информацию по правильной настройке SEO для этой системы найти сложнее. В этой статье рассмотрим один из наиболее важных вопросов оптимизации сайта — составление правильного файла robots.txt. С одной стороны, размещение текстового файла в корне сайта является одной из самых простых задач оптимизации. С другой стороны, малейшая ошибка в файле роботс может привести к нехорошим последствиям вплоть до закрытия всего сайта от индексации и, следовательно, исчезновения его из поиска.

Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо. Ниже представлены коды Robots, которые являются базовыми, универсальными для любого сайта на соответствующей версии MODx. В то же время, нужно понимать, что у каждого сайта существуют свои особенности, разработчик мог внести изменения в архитектуру папок сайта для своего удобства таким образом, что файл будет важно скорректировать. Поэтому лучше всего, если файл robots проверит и скорректирует специалист по SEO конкретно для вашего сайта.

Правильный Robots.txt для MODx


Команды подходят как для MODx Revolution, так и для MODx Evolution. В некоторых статьях попадалась информация с файлами robots, отличающимися для Revo и Evo. Однако основная причина отличий в файлах — разные источники и непонимание автора, что данные команды обозначают.

User-agent: *               # правила для всех роботов
Disallow: /cgi-bin          # папка на хостинге
Disallow: /manager/         # авторизация
Disallow: /assets/          # папка с системными файлами modx
Disallow: /core/            # папка с системными файлами modx
Disallow: /connectors/      # папка с системными файлами modx
Disallow: /index.php        # дубли страниц index.php
Disallow: *?*               # ссылки с параметрами
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Disallow: *from=            # ссылки с метками from
Allow: /assets/*.jpg        # здесь и далее открываем для индексации изображения, файлы и скрипты
Allow: /assets/*.jpeg 
Allow: /assets/*.gif 
Allow: /assets/*.png 
Allow: /assets/*.pdf 
Allow: /assets/*.doc 
Allow: /assets/*.docx 
Allow: /assets/*.xls 
Allow: /assets/*.xlsx 
Allow: /assets/*.ppt 
Allow: /assets/*.pptx 
Allow: /assets/*.js 
Allow: /assets/*.css
Allow: *?page=              # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical)

# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.


bisteinoff

Последние публикации

Core Web Vitals: как оптимизировать сайт и улучшить его ранжирование в Яндексе и Google

В этой статье я подробно раскрою процесс работы с Google Core Web Vitals для качественной технической оптимизации сайта. А также…

7 месяцев ago

Чек-лист по SEO оптимизации сайта на 2023 год

В этой статье я приведу перечень пунктов, которые необходимо проверить, чтобы предусмотреть все основные ключевые факторы, которые важны при оптимизации…

3 года ago

Robots.txt для WordPress

В интернете можно найти много публикаций на тему, как составить лучший (или даже самый лучший) файл robots.txt для Wordpress. При…

3 года ago

Профессия веб-аналитик в современном мире

Интервью для проекта газеты Комсомольская Правда «Образование в России и за рубежом». (далее…)

5 лет ago

Протокол HTTP/2 — как проверить и почему это важно для SEO?

С ноября 2020 года поисковый робот Google, который индексирует сайты в интернете, начнет производить сканирование по протоколу HTTP/2. Если ваш…

5 лет ago

SEO умерло?

Наверное, я не слишком ошибусь, если скажу, что скоро будет 10 лет мифу о том, что «SEO умерло». Тем не…

5 лет ago