На главную Creative Представление о "естественных веб-страницах"
Представление о "естественных веб-страницах"

Главный принцип поисковых систем таков: они стремятся найти и показать вверху списка результатов "естественные веб-страницы" , наиболее соответ­ствующие запросу.

Как говорят разработчики поисковых машин, их интересуют веб-страницы, созданные людьми и для людей (а не для поисковых роботов).

Что же означает слово "естественные"? Разберем это на примере.

Пусть поисковая система по запросу новости нашла два следующих тексто­вых документа. В обоих текстах есть слово "новости".

Главные неофициальные новости 2005 года

Весь год, параллельно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь. Однако без них картина уходящего года была бы, наверное, не полной, и уж, во всяком случае, не такой красочной. Лента. Ру предлагает список самых странных новостей года, составленный на основе предпочтений наших читателей.

* * *

Главные новости неофициальные новости 2005 новости года

Весь новости год, параллельно новости с самыми важными событиями, происходит новости множество любопытных новости курьезов, которые упоминаются в новостях в последнюю новости очередь. Однако без новости них картина уходящего года была бы, наверное, не полной, и уж во всяком новости случае не такой красочной. Лента.Ру предлагает новости список самых странных новостей года, составленный на основе предпочтений новости наших читателей.

1 Например, Яндекс называет это естественными сетевыми документами.

Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отли­чие: первый текст написан хорошим, гладким языком, а вот второй... какой-то "неправильный". Читать его сложно, слово "новости" употребляется в нем не к месту и не в меру. Иными словами, первый текст — естественный, он на­писан человеком и для человека. Второй — неестественный, люди не смогут легко прочитать его и понять. Очевидно, он составлен кем-то специально для поискового робота.

А теперь вспомним, что нам (поисковой машине) необходимо решить, ссыл­ку на какой из этих документов поставить выше в результатах поиска по за­просу новости. В первом тексте слово "новости" встречается два раза, во вто­ром — двенадцать.

Казалось бы, чем чаще в тексте встречается нужное слово, тем более соот­ветствует текст запросу... Следуя такой простой логике, мы должны были бы в результатах поиска первой поставить ссылку на полную белиберду.

Увы, поисковая система не умеет понимать тексты, как это делает человек, и выбор из двух, или двух сотен, или двух миллионов текстов, в которых най­дено слово из поискового запроса, осуществляется автоматически. Как же по­исковая машина может автоматически отличить естественные тексты от неес­тественных?

На помощь приходят лингвистика и математика. Естественный текст имеет свои качественные и количественные характеристики, которые почти не меня­ются от текста к тексту. Это средняя длина предложений, средняя длина слов, частоты употребления слов, распределение знаков препинания и т.п. Многие из этих характеристик можно подсчитать автоматически и тем самым оценить степень естественности текста.

Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего исследованы, и их труднее всего подделать. Наиболее известным лингвистичес­ким фактом о частотах слов в "естественных" текстах является закон Ципфа: если расположить слова в порядке их частоты употребления в некотором доста­точно большом текстовом массиве, то количество вхождений слова будет обрат­но пропорционально его номеру. Закон Ципфа применяют для анализа текстов в самых разных отраслях, в том числе даже для анализа зашифрованных сооб­щений в криптографии, когда нужно понять, имеем ли мы дело хоть и с зашиф­рованным, но все-таки естественным текстом.

Конечно, частота употребления конкретного слова сильно зависит от темати­ки рассматриваемых текстов. Но в одной тематике эти частоты довольно устой­чивы и починяются закону Ципфа.

Зная этот закон и другие принципы поведения слов в тексте, поисковая маши­на может обнаружить неестественную плотность и расположение некоторых слов и на этом основании сделать заключение о неестественном характере текста.

Например, в приведенном примере неестественного текста частота слова "но­вости" почти в три раза выше, чем ожидаемое для естественных текстов.

Несомненно, что алгоритмы ранжирования реальных поисковых машин на­много сложнее и учитывают множество факторов. Но все эти факторы, исполь­зуемые в качестве значимых параметров для ранжирования, взяты именно из представлений о том, какими должны быть нормальные, естественные, сетевые документы, предназначенные для пользователей.

У читателя может возникнуть естественный вопрос, почему мы так старатель­но подчеркиваем слово "естественный". Разве в Интернете кроме обычных текс­тов веб-страниц бывают какие-то другие, "неестественные" документы? Откуда они могут появиться, кто и с какой целью их создает? Кому может понадобиться нечитаемый документ, где слово "новости" повторяется через каждые два слова?

К сожалению, неестественных документов, созданных для того, чтобы обма­нуть поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы подробно разберем в главе о поисковом спаме.

А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта в результатах поиска.

 









.