На главную Статейки по PR Составление индекса посиковой машиной
Составление индекса посиковой машиной
Собранные вместе основы всех слов из всех текстов сводятся в индекс — свое­образный словарь, в котором основы упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и на каком мес­те на этой странице данная основа стояла (номер вхождения). Основы в словаре упорядочиваются по алфавиту для удобства поиска по ним.

Таким образом, индексная запись имеет следующую структуру:

ОСНОВА /номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения /  ....

Конечно, в реальности для экономии места и повышения скорости использо­вания индекса его структуру всячески оптимизируют и усложняют. Например, вместо основ в индексе хранят их номера (так как номера короче и имеют фикси­рованную длину), а основы хранят отдельно; номера страниц пишут не всякий раз, а только единожды для всех вхождений с данной страницы, и т.д. Затем индекс упаковывают для экономии места, еще раз индексируют для ускоре­ния доступа и т.д.

Но общая идея индексной записи именно такова, как описано выше.

 









.