На главную Статейки по PR Прямой индекс
Прямой индекс
Чтобы показывать при найденных страницах цитаты с выделенными (подсвеченными) словами запроса, поисковые машины хранят все тексты всех проиндексированных страниц. Хранят, ко­нечно, в сжатом, упакованном виде, без HTML-разметки, графики и прочего "мусора", в чисто текстовом виде. Но в любом случае поисковая машина хранит у себя на серверах копию всего Интернета, выкачанного ее индексным "пауком".

Для хранения текстовой копии страниц инверсный индекс не подходит — слишком долго каждый раз при отображении цитаты восстанавливать порядок слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разработчиков называемый прямым. Он представляет со­бой тексты веб-страниц, очищенные от всех не-текстовых элементов, сжатые и упакованные, и является текстовой копией всего Интернета.

Например, Google имеет у себя текстовую копию всего мирового Интернета (в том объеме, до какого смог добраться его "паук"), а Яндекс — копию всего Рунета.

Именно наличие этой текстовой копии позволяет поисковым машинам не только показывать релевантные цитаты в результатах поиска, но и иметь функцию "восстановить текст страницы", которой удобно пользоваться, если сама нужная страница в данный момент недоступна или вообще уже удалена с сайта.

 

 

���� ������������



���� ������������


���� ������������
������.�������