На главную Статейки по PR Выкачивание страниц
Выкачивание страниц
Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст.

Для этого поисковик должен выкачать этот текст, т.е. запросить у сайта задан­ную страницу. Выкачивает страницы специальный модуль поисковой машины, называемый поисковым "пауком" (по-английски crawler), или поисковым робо­том. Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дис­ках своих компьютеров и передает на индексирование индексному роботу.

Составление индекса, или индексирование

Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице.

Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), уда­ляет из текста страниц всякий ненужный, нетекстовый "мусор" (например, раз­метку языка HTML ), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты.

Как именно устроен индекс, мы подробно расскажем чуть позже.

 









.