На главную Статейки по PR Координатный индекс
Координатный индекс
Первые интернет-поисковики (середины 1990-х годов) не запоминали местоположение слова на странице. В индекс записывался только список страниц, на которых встретилось данное слово. Это делалось для экономии места и для того, чтобы получить более простую структуру индекса, другими словами, для более быстрого доступа к индексу.

Однако это ограничение не позволяло достаточно точно определить релевантность страницы при поиске словосочетаний. Ведь поисковик не мог различить компактное вхождение слов запроса, когда они стоят рядом, в одной фразе, от разнесенного вхождения, когда одно сло­во запроса, скажем, находится в правом верхнем углу страницы, а второе —- в левом нижнем.

В результате для многословных запросов релевантность была практически нулевой. Так, на­пример, был устроен поисковик Рамблера вплоть до 1999 года.

С ростом числа многословных запросов (а их доля все время растет по мере роста числа опытных пользователей) и по мере развития поисковых технологий большинство популярных поисковиков перешли на индекс, учитывающий координату слова на странице. Такой индекс называется координатным.

Учет компактных вхождений слов запроса в координатном индексе позволяет не только более аккуратно "взвешивать" релевантность страницы, но и показывать наиболее подходящую ци­тату из текста страницы.

 

Как видим, индекс представляет собой обращенную, вывернутую "наизнан­ку" копию всех страниц Интернета. Если в обычном тексте мы идем от страни­цы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным или инверсным, т.е. обращенным, перевернутым.

А откуда же берется цитата в поисковых результатах? Ведь порядка слов в тексте в инвертированном индексе явно нет. Неужели поисковик восстанав­ливает текст страницы по этому вывернутому "наизнанку" индексу?

Нет, хотя это и возможно технически, гораздо проще и экономнее для показа цитат хранить еще и второй индекс, так называемый прямой. Этот прямой ин­декс есть, по сути, сжатая текстовая копия всего Интернета.

 









.