Что такое Robots.txt: Настройка и правила управления индексацией
Что такое Robots.txt: Фейсконтроль для поисковых роботов на вашем сайте
Файл robots.txt — это простой текстовый документ, размещенный в корневом каталоге веб-сайта, который содержит строгие инструкции для поисковых роботов (краулеров) Яндекса и Google. Простыми словами, это список правил фейсконтроля: он сообщает алгоритмам, в какие разделы вашего сайта заходить можно, а какие двери для них закрыты. Изучение файла robots.txt — это самое первое действие, которое совершает любой бот, придя на ваш ресурс.
💡 Фундаментальный ресурс: В 2026 году лимиты на сканирование (Crawl Budget) стали максимально жесткими. Для настройки обязательно используйте официальное Руководство Google по файлу robots.txt.
Зачем закрывать страницы от индексации?
Многим новичкам кажется нелогичным закрывать сайт от поисковиков: ведь мы хотим максимум трафика! Однако на любом сайте, особенно коммерческом, генерируется огромное количество мусорных (служебных) страниц, попадание которых в поиск нанесет огромный вред.
Что необходимо закрывать в robots.txt:
- Страницы авторизации, корзины, оформления заказа.
- Системные файлы CMS (папки
/wp-admin/,/bitrix/и прочие). - Результаты внутреннего поиска по сайту (во избежание бесконечной генерации дублей).
- Сортировки и фильтры в интернет-магазинах, которые не имеют SEO-оптимизации.
Если вы не закроете эти страницы, поисковый алгоритм потратит на них весь свой выделенный бюджет обхода, а до полезных экспертных статей просто не дойдет.
Основные директивы (синтаксис) файла Robots.txt
Файл пишется по определенному стандарту (Robots Exclusion Protocol). Он состоит из простых блоков команд.
User-agent: *Disallow: /admin/
Disallow: /search/
Disallow: /*?sort=
Allow: /admin/public-images/
Sitemap: https://site.ru/sitemap.xml
User-agent: указывает, к какому роботу применяются правила ( — ко всем).
Disallow: директива запрета сканирования (папка или шаблон URL).Allow: разрешение на сканирование исключения из закрытой директории.Sitemap: ссылка на карту сайта.
Безопасность файла и базы данных
Ошибки в robots.txt обходятся бизнесу невероятно дорого. Если вебмастер случайно пропишет Disallow: / (запрет на сканирование всего сайта), через неделю проект вылетит из выдачи.
В современных CMS этот файл часто генерируется динамически из базы данных. Любой сбой скрипта маршрутизации может сгенерировать фатальную ошибку, закрыв весь каталог товаров. Чтобы защитить SEO-инфраструктуру от случайных катастроф, бизнесу необходимо использовать сервис быстрых бэкапов баз данных sqlite, nosql, дамп postgresql. Этот продукт позволит настроить бэкап БД в облако одной строкой и обеспечит железобетонную автоматизацию сохранения конфигураций. Если плагин случайно сломает файл настроек индексации, у вас всегда под рукой будет дамп для мгновенного отката, что спасет вас от катастрофической потери трафика.
FAQ (Часто задаваемые вопросы)
В чем разница между Robots.txt и метатегом Noindex?Файл robots.txt запрещает сканирование (краулинг). Бот не пойдет по ссылке. Метатег в HTML-коде разрешает сканирование, но категорически запрещает индексацию. Помните: если вы повесили на страницу тег noindex, но закрыли её в robots.txt, робот никогда не зайдет на страницу, не прочитает тег noindex и может оставить её в выдаче как "закрытую в robots.txt"!
Директива Clean-param (используется для обрезки UTM-меток) долгое время была эксклюзивом Яндекса. Google её игнорирует. Для Google проблемы параметров решаются с помощью тега Canonical.