На главную Статейки по PR Как устроен индекс поисковой машины
Как устроен индекс поисковой машины
Индекс — слово, которое постоянно упоминается в связи с поисковыми маши­нами. Увы, большинство пользователей Интернета до сих пор довольно смутно представляют себе, что это такое. Хотя, как уже говорилось выше, ничего слож­ного в этом понятии нет, более того, ему много веков, и каждый из нас встречал­ся с индексом в виде предметного указателя книги еще до своего первого выхода в Интернет.

Давайте рассмотрим процесс индексирования текста подробнее и разберемся с устройством индекса. Вот какие шаги выполняет поисковая машина для со­здания индекса из выкачанных веб-страниц.

Конверсия в чистый текст

Для начала текст индексируемой страницы нужно очистить от всяких нетек­стовых элементов — графики, разметки (тегов) языка HTML и прочего "мусо­ра". В результате получается чистый текст, с которым дальше работает индек­сный робот.

Выборка слов

Все слова нужно выбрать из текста, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом — последова­тельность букв (и какого именно алфавита), числа, буквенно-цифровые последо­вательности, слова с дефисом и т.п., а также, что словом не считается и пропус­кается (пробелы, знаки препинания и пр.). Ниже мы расскажем об этом чуть под­робнее. А сейчас лишь заметим, что у каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь, увы, не существует).

Итак, поисковик выбирает из текста все, что считает словами, и собирает их в отдельный список.

Лингвистическая обработка

В большинстве поисковых машин слова не заносятся в индекс в том виде, в ко­тором они приведены в тексте.

Обычно на этапе выборки слов из текстов веб-страниц поисковая машина применяет какой-то свой алгоритм лингвистической обработки слов, а именно, приведения слов к их начальным грамматическим формам, или основам (к име­нительному падежу, грубо говоря). Этот алгоритм называется машинной мор­фологией. Делается это для экономии места в индексе и, что более важно, для более точного поиска.

По поводу использования машинной морфологии в поисковиках также бы­тует довольно много мифов и домыслов, так что ниже, в отдельном разделе, мы специально коснемся этого вопроса. Пока же достаточно сказать, что машинная морфология служит для замены слов на их основы в индексе поисковика.

 

���� ������������



���� ������������


���� ������������
������.�������