На главную Статейки по PR Что такое машинная морфология
Что такое машинная морфология
Как уже говорилось выше, при индексировании текстов и поиске запросов поисковая машина волей-неволей должна производить лингвистическую обра­ботку слов. Причина этого — в устройстве языка.

Проблема окончаний

Во многих языках слова имеют несколько различных окончаний (в так называемых флективных языках; от лат. флексия — окончание). Поэтому у каждого слова очень много различных форм, которые называются словофор­мами. Бывают, конечно, во флективных языках и неизменяемые слова (предло­ги, наречия, союзы и пр.), но их меньшинство.

Словоформы по смыслу являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в осно­ве (например, видеть — вижу, бобер — бобры, fight fought). А в некоторых особых случаях (так называемый супплетивизм) словоформы одного и того же слова могут вообще не иметь ни единой общей буквы (например, идти — шел; go went).

Как видно из примеров, русский и английский языки— флективные. Однако окончаний и разных словоформ в английском языке сравнительно мало. Лингвистическая обработка окончаний в английском очень проста, а часто и вов­се не делается поисковиками.

А вот русский язык, напротив,— высокофлективный язык, так как его сло­ва имеют очень много форм. Например, существительное в общем случае имеет двенадцать словоформ (шесть падежей единственного числа и шесть падежей множественного). Есть и неизменяемые существительные, например кофе, пальто, но их мало. У прилагательного — почти двадцать словоформ, а уж гла­голы со всеми своими причастиями могут иметь до сотни форм.

Таким образом, если хранить в индексе все встречающиеся в Интернете слова русского языка во всех их формах, словарь получится просто огромным, размером в десятки миллионов словоформ. Что, естественно, неудобно и неэффективно.

Кроме того, есть еще вопрос правильного поиска слов. Ведь хотелось бы, что­бы поисковая машина знала, что стол и столы — одно и то же слово! Таким образом, поисковику нужно отождествлять между собой словоформы, явля­ющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова.

Как это делается?

 


специальная оценка условий труда






.