Сайты на системе администрирования MODx встречаются не так часто, информацию по правильной настройке SEO для этой системы найти сложнее. В этой статье рассмотрим один из наиболее важных вопросов оптимизации сайта — составление правильного файла robots.txt. С одной стороны, размещение текстового файла в корне сайта является одной из самых простых задач оптимизации. С другой стороны, малейшая ошибка в файле роботс может привести к нехорошим последствиям вплоть до закрытия всего сайта от индексации и, следовательно, исчезновения его из поиска.
Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо. Ниже представлены коды Robots, которые являются базовыми, универсальными для любого сайта на соответствующей версии MODx. В то же время, нужно понимать, что у каждого сайта существуют свои особенности, разработчик мог внести изменения в архитектуру папок сайта для своего удобства таким образом, что файл будет важно скорректировать. Поэтому лучше всего, если файл robots проверит и скорректирует специалист по SEO конкретно для вашего сайта.
Правильный Robots.txt для MODx
Команды подходят как для MODx Revolution, так и для MODx Evolution. В некоторых статьях попадалась информация с файлами robots, отличающимися для Revo и Evo. Однако основная причина отличий в файлах — разные источники и непонимание автора, что данные команды обозначают.
User-agent: * # правила для всех роботов Disallow: /cgi-bin # папка на хостинге Disallow: /manager/ # авторизация Disallow: /assets/ # папка с системными файлами modx Disallow: /core/ # папка с системными файлами modx Disallow: /connectors/ # папка с системными файлами modx Disallow: /index.php # дубли страниц index.php Disallow: *?* # ссылки с параметрами Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Disallow: *from= # ссылки с метками from Allow: /assets/*.jpg # здесь и далее открываем для индексации изображения, файлы и скрипты Allow: /assets/*.jpeg Allow: /assets/*.gif Allow: /assets/*.png Allow: /assets/*.pdf Allow: /assets/*.doc Allow: /assets/*.docx Allow: /assets/*.xls Allow: /assets/*.xlsx Allow: /assets/*.ppt Allow: /assets/*.pptx Allow: /assets/*.js Allow: /assets/*.css Allow: *?page= # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical) # Укажите один или несколько файлов Sitemap Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru
В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.