Технологии

robots.txt - блог №236433

итак, поговорим о роботс.тхт. Большинство пользователей, услышав о рекомендации создать его, смотрят такими глазами, как будто им сказали сваять на аасемблере виндовс 12)) что же такое, этот страшный файл?

роботс — это простой текстовый документ, который сильно может облегчить Вам жызнь. С его помощью Вы можете запретить индексацию мусора и ненужных страниц.

User-agent: * Disallow: /*error Disallow: /*index Disallow: /link Disallow: /public/adDisallow:/topic/complain Disallow: /blog/complain Disallow: /forum/complain Disallow: /news/complain Disallow: /topic/reply Disallow: /blog/reply Disallow: /forum/reply Disallow: /news/reply Disallow: /topic/best Disallow: /blog/best Disallow: /forum/best Disallow: /news/best Disallow: /topic/ratetopic Disallow: /blog/ratetopic Disallow: /forum/ratetopic Disallow: /news/ratetopic Disallow: /topic/ratepost Disallow: /blog/ratepost Disallow: /forum/ratepost Disallow: /news/ratepost Disallow: /topic/edit Disallow: /blog/edit Disallow: /forum/edit Disallow: /news/edit Disallow: /topic/delete Disallow: /blog/delete Disallow: /forum/delete Disallow: /news/delete Disallow: /*tag=1 Disallow: /*health/alternative-medicine Disallow: /*health/aroma Disallow: /*health/cosmetology Disallow: /*health/healthy-food Disallow: /*health/image Disallow: /*health/sport Disallow: /*house/veterinarian Disallow: /mailto Disallow: /javascript User-agent: Yandex Disallow: /*error Disallow: /*index Disallow: /link Disallow: /public/ad Disallow: /topic/complain Disallow: /blog/complain Disallow: /forum/complain Disallow: /news/complain Disallow: /topic/reply Disallow: /blog/reply Disallow: /forum/reply Disallow: /news/reply Disallow: /topic/best Disallow: /blog/best Disallow: /forum/best Disallow: /news/best Disallow: /topic/ratetopic Disallow: /blog/ratetopic Disallow: /forum/ratetopic Disallow: /news/ratetopic Disallow: /topic/ratepost Disallow: /blog/ratepost Disallow: /forum/ratepost Disallow: /news/ratepost Disallow: /topic/edit Disallow: /blog/edit Disallow: /forum/edit Disallow: /news/edit Disallow: /topic/delete Disallow: /blog/delete Disallow: /forum/delete Disallow: /news/delete Disallow: /*tag=1 Disallow: /*health/alternative-medicine Disallow: /*health/aroma Disallow: /*health/cosmetology Disallow: /*health/healthy-food Disallow: /*health/image Disallow: /*health/sport Disallow: /*house/veterinarian Disallow: /mailto Disallow: /javascript Host: www.liveexpert.ru

вот так выглядит роботс этого сайта. давайте разберемся, что за директивы, и для чего они есть.

итак, здесь данный файл грамотно составлен, закрыты все технические страницы. Рекомендуеться закрывать такие страницы:

  • страницы с динамическими адресами, если на сайте есть и ЧПУ. если страницу можно найти и по адресу site.ru/vopros/ и site.ru/index.php?id2&page11, то закрыть нажно все страницы с динамическими адресами. пример — Disallow:/index.php?*
  • технические страницы — это и обратная связь. и вход в админку, и регистрация…
  • дубли страниц, так как если страницу можно найти по 2 адресам, то. соответственно, вес страницы, который она имеет в поисковиках,  делиться на 2.
  • страницы, которые генерирует поисковый модуль.
  • системные директории (типа wp-admin в Вордпресе)

также важны еще 2 директивы — Host и Sitemap

Host  — указание главного зеркала сайта — с www или без.

Host: www.liveexpert.ru

здесь указано главным зеркало с www. данная директива пнятна только Яндексу. но ее можно ставить в блок для все поисковиков. так как прочитает ее только Яндекс, а остальные роботы просто пропустят.

Sitemap — указание местоположения карты сайта. Рекомендуется ее прописывать, так как это существенно облегчит индексацию. наличие самой карты сайта обязательно. 

Популярные ошибки:

созданны 2 блока директив — в блоке для Яндекса только Хост, а в обшем блоке все остальные. при наличия общего блока (User-agent: * ) и блока для конкретного поисковика (например, User-agent: Yandex ) каждый робот будет читать директивы только из своего блока. Поэтому, если в блоке для Яндекса только Хост, то только его он и прочитает, а остальные директивы из общего блока пропустит. Если создаете данный файл — каждую директиву желательно дублировать во всех других блоках.

отсутствие запрета на индексацию страниц, созданных поисковым модулем. запретить индексацию их легко — вбивайте запрос и смотрите на адрес. Пример — если при запросе «sepr» адрес выглядит таким образом :

/index.php?first=no&what=&kp_query=sepr

то запрет нужно составлять таким образом — обрезаем адрес до запроса и добавляем *

Disallow: /index.php?first=no&what=&kp_query=*

на многих сайтах также не указаны директивы Хост и Сайтмап.

Вот здесь ЯША привел документацию по составлению данного файла. Составляйте данный файл грамотно. так как от этого зависит индексация Вашего сайта. И то, сколько мусора с него попадет в поисковики.

 


3356

Для того, чтобы оставить комментарий, войдите или зарегистрируйтесь.

  • Комментария: 2

  • Алексей Тарасов

    апрель 4, 2012 г.

    молодец, Игорь! спасибо за инфу.

  • Игорь Фостяк

    апрель 4, 2012 г.

    Всегда рад помочь) кстати. сейчас дописываю статью про релевантность, может на днях закину.

  • Алексей Тарасов

    апрель 4, 2012 г.

    отличная идея. занющие люди оценят твой вклад!