Лучшие лотереи:
Что такое машинная морфология |
Как уже говорилось выше, при индексировании текстов и поиске запросов поисковая машина волей-неволей должна производить лингвистическую обработку слов. Причина этого — в устройстве языка. Проблема окончаний Во многих языках слова имеют несколько различных окончаний (в так называемых флективных языках; от лат. флексия — окончание). Поэтому у каждого слова очень много различных форм, которые называются словоформами. Бывают, конечно, во флективных языках и неизменяемые слова (предлоги, наречия, союзы и пр.), но их меньшинство. Словоформы по смыслу являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в основе (например, видеть — вижу, бобер — бобры, fight — fought). А в некоторых особых случаях (так называемый супплетивизм) словоформы одного и того же слова могут вообще не иметь ни единой общей буквы (например, идти — шел; go — went). Как видно из примеров, русский и английский языки— флективные. Однако окончаний и разных словоформ в английском языке сравнительно мало. Лингвистическая обработка окончаний в английском очень проста, а часто и вовсе не делается поисковиками. А вот русский язык, напротив,— высокофлективный язык, так как его слова имеют очень много форм. Например, существительное в общем случае имеет двенадцать словоформ (шесть падежей единственного числа и шесть падежей множественного). Есть и неизменяемые существительные, например кофе, пальто, но их мало. У прилагательного — почти двадцать словоформ, а уж глаголы со всеми своими причастиями могут иметь до сотни форм. Таким образом, если хранить в индексе все встречающиеся в Интернете слова русского языка во всех их формах, словарь получится просто огромным, размером в десятки миллионов словоформ. Что, естественно, неудобно и неэффективно. Кроме того, есть еще вопрос правильного поиска слов. Ведь хотелось бы, чтобы поисковая машина знала, что стол и столы — одно и то же слово! Таким образом, поисковику нужно отождествлять между собой словоформы, являющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова. Как это делается?
|