На главную Статейки по PR Отбрасывание окончаний и работа с основами
Отбрасывание окончаний и работа с основами
Естественным решением этой проблемы изменчивости слов является реше­ние хранить только основы слов, а окончания и чередования — отбрасывать и хранить отдельно. Это дает не только значительную экономию, но и позволяет объединять при поиске разные грамматические формы одного и того же слова, что довольно важно для качества поиска.

Для этого в ходе индексации веб-страниц слова приводятся к своим началь­ным формам (условно говоря, к именительному падежу или инфинитиву), а чаще — вообще к основам (корням слов), и уже в таком виде добавляются в индекс поисковой машины. Для этого поисковик обычно применяет словарь, т.е. работает только с известными ему словами. (Об обработке неизвестных слов рассказывается во врезке ниже в данной главе.)

Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет све­дена к основе и будут найдены все вхождения этой основы в тексте.

 

���� ������������



���� ������������


���� ������������
������.�������