На главную Creative Сессии и дубликаты
Сессии и дубликаты

Сессии и дубликаты

Если на сайте предусмотрена возможность регистрации пользователя (напри­мер, форум), важно как-то запоминать, когда он последний раз был на сайте, ка­кие страницы посещал, какие настройки сделал, и т.д. Для этого существует ме­ханизм сессий — уникальные идентификаторы для каждого посетителя сайта.

2

У обычного пользователя идентификатор сессии хранится в записях cookie браузера, но бывает и так, что в браузере настройки установлены таким образом, что cookie отключены. Если посетитель приходит на сайт с отключенными cookie, то, для того, чтобы проследить его действия на сайте, к каждому адресу страницы добавляется идентификатор сессии (комбинация символов). Такие адреса могут выглядеть так: www. site. ru/forum. asp?topic=135&session ID=42487E39A2B042 7 9A42623E59DFF.

Поисковые роботы не могут принимать cookie, поэтому получают идентифи­катор сессии в адресе страницы, как те пользователи, у которых cookie отклю­чены. Каждый раз, когда робот приходит на сайт, в котором используется меха­низм сессий, ему присваивается разный идентификатор, который добавляется к адресам страниц, и каждый раз одни и те же страницы для робота имеют раз­ные адреса. После нескольких заходов на сайт в разное время поисковый робот имеет огромные списки одних и тех же страниц с разными идентификаторами сессий. В результате расходуются ресурсы сервера, а очередь до индексирова­ния действительно важных страниц может и не дойти.

Еще одной проблемой для крупных сайтов могут стать дубликаты страниц. После того как на сайте была изменена адресация страниц, может возникнуть ситуация, когда для каждой страницы сайта существует еще несколько ее ко­пий. Приведем в качестве примера несколько адресов, которые для робота будут разными страницами, но на самом деле ведут на одну и ту же страницу (предпо­ложим, что на сайте были введены псевдостатические адреса):

       www.site.ru/script.php?page=service&mode=show

       www.site.ru/service/

       www.site.ru/service.html

       www. site., ru/service.htm

Если на этом сайте, к примеру, было 1000 страниц, то поисковая система получит 4000 ссылок, а позже вынуждена будет выбирать из четырех копий наиболее релевантную страницу на сайте. Чтобы этого не случилось, нужно проверять страницы сайта и исключать ситуации, когда по нескольким разным адресам находятся совершенно одинаковые страницы.

Отдельно следует отметить механизм Яндекса по удалению дубликатов: когда количество одинаковых страниц сайта достигает определенного порога, запус­кается специальная программа, которая удаляет лишние страницы из индекса поисковой системы. Иногда после такой процедуры в индексе просто не остается документов с сайта, и процесс индексации начинается с самого начала.

 

Cookie (от англ. cookie — печенье) — специальная текстовая строка, хранимая на компьютере пользователя, с помощью которой каждый сайт может "пометить" бра­узер пользователя. При повторном обращении сайт считывает значение cookie и "уз­нает" пользователя.

 

 









.