Статья 6. Самодеятельность Яндекса.

Тезисы: поисковая система Яндекс (Яndex), тег <NOINDEX>, директива host в robots.txt, индексирование страниц, индекс, кэш

Задача данной статьи – обратить внимание читателя не некоторые нестандартные возможности управления роботом Яндекса при индексировании

страниц последним.

Предисловие

Не знаю почему, но наш человек всегда любил, любит, и будет любить отходить от установленных правил, стандартов и пр. (именно отходить, а не нарушать; хотя и не без этого…). Ему что-то либо не нравится, либо чего-то не хватает…Наверное, это потому что наш человек всегда старается приблизиться к идеалу. Его не устраивают рамки, в которые его ставят… В общем, причин может быть очень много! Но иногда хочешь как лучше, а получается как всегда, но не всегда :)

А Яндекс-то здесь причем?

Да. Немного отошел от темы. А дело в том, что Яндекс предоставляет веб мастеру некоторые дополнительные возможности для управления

роботом, который индексирует страницы сайта. Поговорим об этом подробнее.

Первая это тег <NOINDEX>

Что это такое? Тег ли это? Наверное, да. А html-тег ли это? 100% нет! Почему??? Идем на сайт Консорциума Всемирной Паутины Интернет

www.w3.org и пытаемся найти тег <NOINDEX>. Ищем, ищем и ничего не находим, кроме значения параметра ROBOTS META-тега (<META NAME="ROBOTS"

CONTENT="NOINDEX, NOFOLLOW">). Сразу хочется отметить, что это разные вещи, т.к. тег <NOINDEX> запрещает (по Яндексу) индексацию

определенной части страницы, которая находится между открывающим и закрывающим тегом: <NOINDEX>Данная часть страницы не будет

проиндексирована Яндексом</NOINDEX>, а мета тег запрещает индексирование всей страницы.

«Ну и что?» - спросите Вы. Справедливо. Но есть одно маленькое «но». Вам необходимо учесть, что данную часть веб страницы не проиндексирует

только Яндекс (хотя в своих хелпах Яндекс про это не указывает и может сложиться впечатление, что это стандарт). Больше ни один поисковик

не поддерживает этот (не html) тег. А если Вы запрещаете индексацию определенной части веб страницы, значит это для Вас важно. Наверное,

Вас не устроит, если эту информацию проиндексирует какой-нибудь другой поисковик. Например, шустряк Гугл. Хотя это может быть и не так.

Дополнительная информация:

http://www.yandex.ru/info/webmaster2.html

Вторая выдумка Яндекса - это директива host

Читаем хелп:

«Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи robots.txt. Это

можно сделать, используя нестандартное расширение robots.txt — директиву Host, в качестве ее параметра, указав имя основного зеркала. Если

www.glavnoye-zerkalo.ru — основное зеркало, то robots.txt должен выглядеть примерно так».

Опять же. На сайте www.robotstxt.org я не нашел соответствующей директивы и программы проверки файлов robots.txt выдают ошибку. Но как бы

там ни было, эту директиву можно успешно использовать для Яндекса, а для других поисковиков использовать более универсальные методы

(правда, в этом случае возникает вопрос о надобности использования этой директивы). Но раз уж используете - ставьте ее в конце. Например:

User-agent: *

Disallow: dir1/

Disallow: dir2/

Host: www.domain.com

Дополнительная информация:
http://www.yandex.ru/info/webmaster2.html

Наши клиенты

Наши клиенты:

Миэль - загородная недвижимость  Русскарт  Глеб-1  ПенопластУрал