На главную Статейки по PR Зачем нужно знать о машинной морфологии
Зачем нужно знать о машинной морфологии
 

Все три российских поисковика — Апорт, Рамблер и Яндекс — уже много лет применяют машинную морфологию при индексировании и поиске. С весны

2006 года русская машинная морфология подключена также и в Google . У каж­дой поисковой машины машинная морфология своя, особенная. Впрочем, обыч­ные слова, наподобие кондиционер, все они склоняют практически одинаково.

Для владельца сайта понимание того, что поисковик считает разные формы сло­ва одним и тем же словом, довольно важно при составлении текстов сайта, управ­лении ссылками, а также при планировании продвижения сайта и контекстных рекламных кампаний в системах контекстной рекламы Бегун и Яндекс.Директ.

 

Неизвестные слова и "нечеткая" морфология

 

Аккуратно отбросить окончание и найти основу можно только у известного слова, которое есть в словаре поисковика. А в языке и особенно в Интернете постоянно появляются новые слова, ибо словотворчество веб-мастеров не знает границ. Как же поступает поисковик с неизвестными ему словами?

С ними делают то же самое, что и с прочими несловарными элементами — числами, буквенно-цифровыми последовательностями, словами неизвестных языков: поисковик хранит их в индексе "как есть", как иероглиф, в той фиксированной форме, в которой они встретились в тексте при

 

(Правда, в отличие от российских поисковиков, Google применяет машинную морфоло­гию не на этапе индексирования, а только во время обработки запроса. Это означает, что Google записывает в индекс все словоформы отдельно, "как есть", а при обработке запроса применяет так называемое расширение запроса: слова запроса превращаются в веер словоформ и все словоформы ищутся в индексе. Интересно, что делается это не каждый раз, а только тогда, когда поисковик сочтет это обоснованным, на основе ана­лиза статистики вхождений заданного слова на веб-страницы.)

индексации. То же самое происходит и с опечатками — они хранятся "как есть". Это довольно очевидный факт, но он ведет к важному выводу: если нужно, чтобы слова на странице распозна­вались поисковиками во всех своих грамматических формах, их следует писать без ошибок и по возможности использовать общеупотребительные слова, которые наверняка известны машин­ной морфологии поисковиков.

Иногда поисковик пытается как-то разобраться со словоизменением неизвестного ему сло­ва — выдвинуть гипотезу о его возможных окончаниях по форме слова. Например, если у вас на сайте использовано слово "квазистул", то можно предположить, что оно склоняется так же, как слово "стул". Этот алгоритм называется нечеткой морфологией. Такой алгоритм, в част­ности, применяют Яндекс и Google. Но этот процесс во многом вероятностный, и рассчитывать на него при написании текстов сайта не стоит.

 









.