|  в избранное  |  e-mail  |  печать |

логотип компании Sundries это просто наша работа  +7 927·241·97·35 , +7 919·686·71·32


Файл robots.txt


robots.txt – текстовый файл с правилами для роботов поисковых систем. Робот загружает его и проверяет записи, начинающиеся со строки User-agent, указывающей для кого составлены инструкции. Если строка User-agent отсутствует, то робот считает, что доступ к сайту не ограничен.

Перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

User-agent: *      # инструкции для всех поисковых роботов

User-agent: Yandex # инструкции только для роботов Яндекса

Символ # предназначен для описания комментариев (всё, что находится после этого символа и до первого перевода строки не учитывается).

Как создать robots.txt и где его разместить?


Для создания файла robots.txt можно использовать любой текстовый редактор. Надо только прописать в файле необходимые правила и загрузить его в корневую директорию сайта. В нашей системе файл robots.txt уже создан (см. файловую структуру) и находится в корне сайта по адресу https://<адрес сайта>/robots.txt

Файловая структура



css
font
img
inc
mod
pad
pic
.htaccess
401.php
403.php
404.php
favicon.ico
index.php
robots.txt
sitemap.xml


Директивы Disallow и Allow


Чтобы запретить доступ робота к сайту или его разделам, используйте директиву Disallow.

Disallow: /        # запрещает обход всего сайта
Disallow: /40      # запрещает обход страниц, начинающихся с '40'

Примечание: страницы «ошибок» 401, 403, 404 являются служебными, им не место в выдаче поисковых систем. Также не стоит разрешать индексацию страницы с Политика обработки персональных данных privacy и результатов поиска по сайту search и

Чтобы разрешить доступ робота к некоторым разделам сайта, используйте директиву Allow.

Disallow: /        # запрещает скачивать всё,
Allow: /page       # кроме страниц начинающихся с 'page'
Allow: /font/      # и файлов из каталога 'font'

Примечание: доступ в каталоги font, css, img, pic открыт для правильного сохранения сайта в архиве поиска.

Между директивами User-agent, Disallow и Allow не должно быть пустых переводов строки.

Использование спецсимволов * и $


При указании путей для директив Allow и Disallow можно использовать спецсимволы * и $, задавая определённые регулярные выражения.

Спецсимвол * означает любую (в том числе пустую) последовательность символов.

Disallow: /page/*.aspx # запрещает '/page/example.aspx'
                       # и '/page/private/test.aspx'

Disallow: /*private # запрещает не только '/private',
                    # но и '/page/private'

Disallow: /*/       # запрещает доступ ко всем каталогам

Примечание: запрет индексации всех каталогов (кроме перечисленных в директивах Allow) позволяет не указывать явно каталоги, в которые не желателен доступ посторонних лиц.

По умолчанию к концу каждого правила роботом приписывается спецсимвол *.

Disallow: /page* # блокирует доступ к страницам начинающимся с '/page'

Disallow: /page  # то же самое, что и предыдущая запись

Чтобы отменить неуказанный символ * в конце правила, можно использовать спецсимвол $.

Disallow: /example # запрещает и '/example',
                   # и '/example.html'

Disallow: /example$ # запрещает только '/example',
                    # но не запрещает '/example.html'

Если спецсимвол * явно указан в конце, то символ $ его не запрещает и запись *$ теряет смысл:

Disallow: /example*$ # так же, как 'Disallow: /example'
                     # запрещает и /example.html и /example

Директива sitemap


Если при описании структуры сайта использовался sitemap.xml, укажите путь к файлу в директиве sitemap (если файлов несколько, укажите все).

Sitemap: https://example.ru/sitemaps1.xml
Sitemap: https://example.ru/sitemaps2.xml

Робот запомнит путь к файлу и будет использовать обработанные данные при следующих загрузках.

Директива Host


Если у сайта есть зеркала, специальный робот определит их и сформирует группу зеркал этого сайта. В поиске будет участвовать только одно главное зеркало, его необходимо указать в директиве Host. Например, если www.glavnoye-zerkalo.ru главное зеркало сайта, то во всех файлах robots.txt для всех сайтов из группы зеркал директива Host должна выглядить так:

Host: www.glavnoye-zerkalo.ru

Некоторые роботы не придерживаются стандарта обработки файла robots.txt, поэтому директиву Host необходимо добавлять в группу непосредственно после директив Disallow и Allow.

User-Agent: *
Disallow:
Host: www.myhost.ru # пример корректно составленного robots.txt

Для каждого файла robots.txt обрабатывается только одна директива Host. Если в файле указано несколько директив, робот использует только первую.

Host: myhost.ru     # используется

User-agent: *
Disallow: /cgi-bin

User-agent: Yandex
Disallow: /cgi-bin
Host: www.myhost.ru # НЕ используется

Директива Host должна содержать:

  • Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу
Host: https://myhost.ru
  • Одно корректное доменное имя, соответствующего RFC 952  и не являющегося IP-адресом.
  • Номер порта, если необходимо
Host: myhost.ru:8080

Некорректно составленные директивы Host игнорируются.

Наш вариант robots.txt



User-agent: *
Disallow: /privacy
Disallow: /search
Disallow: /40
Disallow: /*/
Allow: /font/
Allow: /css/
Allow: /img/
Allow: /pic/
Host: https://<адрес сайта>
Sitemap: https://<адрес сайта>/sitemap.xml


Дополнительная информация


Необходимо помнить, что доступ робота ко всем документам будет считаться не ограниченым, если файл robots.txt:

  • отсутствует на сервере;
  • его не удаётся загрузить;
  • файл содержит ошибки;
  • его размер превышает 32 Кб;
  • ответ на запрос робота отличается от 200 OK.

Проверить возможные ошибки в правилах можно с помощью сервиса Яндекс.Вебмастер  (пункт меню – Анализ robots.txt).