|  в избранное  |  e-mail  |  печать |

логотип компании Sundries это просто наша работа  +7 927·241·97·35 , +7 919·686·71·32


Файл robots.txt


robots.txt – текстовый файл с правилами для роботов поисковых систем. Робот загружает его и проверяет записи, начинающиеся со строки User-agent, указывающей для кого составлены инструкции. Если строка User-agent отсутствует, то робот считает, что доступ к сайту не ограничен.

Перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

User-agent: *      # инструкции для всех поисковых роботов

User-agent: Yandex # инструкции только для роботов Яндекса

Символ # предназначен для описания комментариев (всё, что находится после этого символа и до первого перевода строки не учитывается).

Как создать файл robots.txt и где его разместить?


В нашей CMS файл robots.txt уже создан (см. файловую структуру справа) и находится в корне сайта по адресу http://<адрес сайта>/robots.txt

CMS / файловая структура



css
font
img
inc
mod
pad
pic
.htaccess
401.php
403.php
404.php
favicon.ico
index.php
robots.txt
sitemap.xml


Директивы Disallow и Allow


Чтобы запретить доступ робота к сайту или его разделам, используйте директиву Disallow.

User-agent: *      # инструкции для всех поисковых роботов
Disallow: /        # блокирует доступ ко всему сайту
Disallow: /page    # блокирует доступ к страницам, начинающимся с '/page'

Чтобы разрешить доступ робота к некоторым разделам сайта, используйте директиву Allow.

User-agent: *      # инструкции для всех поисковых роботов
Disallow: /        # запрещает скачивать всё
Allow: /page       # кроме страниц начинающихся с '/page'

Между директивами User-agent, Disallow и Allow не должно быть пустых переводов строки.

Использование спецсимволов * и $


При указании путей для директив Allow и Disallow можно использовать спецсимволы * и $, задавая определённые регулярные выражения.

Спецсимвол * означает любую (в том числе пустую) последовательность символов.

Disallow: /page/*.aspx # запрещает '/page/example.aspx'
                       # и '/page/private/test.aspx'

Disallow: /*private # запрещает не только '/private',
                    # но и '/page/private'

По умолчанию к концу каждого правила роботом приписывается спецсимвол *.

Disallow: /page* # блокирует доступ к страницам начинающимся с '/page'

Disallow: /page  # то же самое, что и предыдущая запись

Чтобы отменить неуказанный символ * в конце правила, можно использовать спецсимвол $.

Disallow: /example # запрещает и '/example',
                   # и '/example.html'

Disallow: /example$ # запрещает только '/example',
                    # но не запрещает '/example.html'

Если спецсимвол * явно указан в конце, то символ $ его не запрещает и запись *$ теряет смысл:

Disallow: /example*$ # так же, как 'Disallow: /example'
                     # запрещает и /example.html и /example

Директива sitemap


Если при описании структуры сайта использовался sitemap.xml, укажите путь к файлу в директиве sitemap (если файлов несколько, укажите все).

Sitemap: http://example.ru/sitemaps1.xml
Sitemap: http://example.ru/sitemaps2.xml

Робот запомнит путь к файлу и будет использовать обработанные данные при следующих загрузках.

Директива Host


Если у сайта есть зеркала, специальный робот определит их и сформирует группу зеркал этого сайта. В поиске будет участвовать только одно главное зеркало, его необходимо указать в директиве Host. Например, если www.glavnoye-zerkalo.ru главное зеркало сайта, то во всех файлах robots.txt для всех сайтов из группы зеркал директива Host должна выглядить так:

Host: www.glavnoye-zerkalo.ru

Некоторые роботы не придерживаются стандарта обработки файла robots.txt, поэтому директиву Host необходимо добавлять в группу непосредственно после директив Disallow и Allow.

User-Agent: *
Disallow:
Host: www.myhost.ru # пример корректно составленного robots.txt

Для каждого файла robots.txt обрабатывается только одна директива Host. Если в файле указано несколько директив, робот использует только первую.

Host: myhost.ru     # используется

User-agent: *
Disallow: /cgi-bin

User-agent: Yandex
Disallow: /cgi-bin
Host: www.myhost.ru # НЕ используется

Директива Host должна содержать:

  • Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу
Host: https://myhost.ru
  • Одно корректное доменное имя, соответствующего RFC 952  и не являющегося IP-адресом.
  • Номер порта, если необходимо
Host: myhost.ru:8080

 Некорректно составленные директивы Host игнорируются.

Дополнительная информация


Для создания файла robots.txt можно использо­вать любой текстовый редактор. Надо только прописать в файле необходимые правила и загрузить его в корневую директорию сайта.

Проверить возможные ошибки в правилах можно с помощью сервиса Яндекс.Вебмастер  (пункт меню – Анализ robots.txt).

Необходимо помнить, что доступ робота ко всем документам будет считаться не ограниченым, если:

  • robots.txt содержит ошибки;
  • файл не удаётся загрузить;
  • его размер превышает 32 Кб;
  • файл отсутствует на сервере;
  • его запрос возвращается статус отличный от 200 OK.