На главную About Seo Закрытие страниц от поисковых роботов
Закрытие страниц от поисковых роботов

Закрытие страниц от поисковых роботов

При публикации одной статьи на сайте СМИ обычно появляется сразу не­сколько страниц: основная страница статьи, версия для печати, форма "отпра­вить другу", страница комментариев пользователей для данной статьи (изна­чально пустая)... Иногда при неправильно спроектированной и реализованной системе публикации контента страница с новостями появляется одновременно по нескольким адресам.

Исходя из всего вышесказанного можно сформулировать одно из правил про­движения сайтов СМИ: для ускорения индексации сайта СМИ следует закры­вать от роботов поисковых систем неинформативные и служебные страницы.

Другими словами, можно и нужно направлять роботов поисковых систем на основной контент сайта с помощью сужения области индексации. При этом ро­боты не только будут активнее индексировать новые страницы, но и чаще пере­индексировать быстро изменяющиеся страницы. Дополнительным плюсом та­кого подхода будет также снижение исходящего трафика и нагрузки на сервер со стороны всевозможных поисковых роботов.

Как именно пользоваться файлом robots, txt, мы рассказали в соответству­ющей главе. Но так ли просто на самом деле закрыть от индексации вспомога­тельные, неинформативные и служебные страницы?

Далеко не всегда. Приведем простой пример: пусть адрес страницы "Новости" на сайте выглядит следующим образом:

http://www.site.ru/news/12345/

где 12345 — некий уникальный номер новости на сайте, а печатная версия этой же новости находится по адресу

http://www.site.ru/news/12345/print/

При такой схеме публикации нельзя написать однозначное правило в robots. txt, запрещающее индексацию страниц для печати, поскольку для каждой но­вости следовало бы писать свое правило. Можно, конечно, воспользоваться мета-тегом на странице для запрещения индексации, но тогда роботы поисковых сис­тем, чтобы прочитать запрещающий мета-тег, все равно должны будут запросить с сервера и получить данный документ, так что это только полумера.

Было бы гораздо проще, если бы адрес страницы для печати любой статьи всегда формировался примерно так:

http://www.site.ru/print/12345/

Тогда все страницы для печати на сайте легко было быть закрыть для индек­сации всего одним правилом в файле robots . txt.

Можно даже не упоминать о том, что адреса страниц новостей должны иметь статический адрес, это требование скорее обязательное, чем желательное.

 









.