• Страница 1 из 1
  • 1
Директива User-agent
feren
Offline
Дата: Чт, 28.07.2011, 10:06 | Сообщение # 1

EURO 2012
Пользователь
Постов: 2103
Управлять доступом робота Яндекса к вашему сайту вы можете при помощи файла robots.txt, который должен быть размещен в корневой директории сайта. Робот Яндекса поддерживает стандарт описания http://www.robotstxt.org/wc/norobots.html с расширенными возможностями, описанными ниже.

В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот. Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен. В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Следующим роботам Яндекса можно указать отдельные директивы:

'YandexBot' — основной индексирующий робот;

'YandexMedia' — робот, индексирующий мультимедийные данные;

'YandexImages' — индексатор Яндекс.Картинок;

'YandexCatalog' — "простукивалка" Яндекс.Каталога;

'YandexDirect' — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;

'YandexBlogs' — робот поиска по блогам, индексирующий комментарии постов;

'YandexNews' — робот Яндекс.Новостей;

'YandexPagechecker' — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;

Code
Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.  

Пример:
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=

User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего

User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin  


  • Страница 1 из 1
  • 1
Поиск:

Дизайн принадлежит администратору сайта.
Любое копирование дизайна без ведома администрации,
запрещено и карается блокировкой ресурса в системе Ucoz
Design by De7 | Imposition: KeNtOk | Используются технологии uCoz
Поисковый анализ сайта