На главную Статейки по PR Разделители и стоп-слова
Разделители и стоп-слова
Конечно, поисковики не индексируют всякие служебные символы, так называ­емые разделители — пробелы, знаки препинания, а также различные теги и дру­гие конструкции языка HTML. Например, если ввести в Яндекс или Google запрос из одной точки (.), они откажутся искать по такому запросу, а Яндекс еще и сооб­щит о "синтаксической ошибке". Действительно, точка есть в любом тексте, так что искать ее нет смысла, да и накладно по затратам серверной мощности.

Стоп-слова

А есть ли "ненужные слова", которые поисковики не индексируют вовсе?

Поисковый индекс представляет собой пусть хорошо упакованную, максималь­но сжатую, вывернутую "наизнанку", но все же копию всех страниц Интернета, известных поисковику. А поисковики стремятся получить данные о максимально большем количестве страниц, т.е. в идеале поисковый индекс должен представ­лять собой копию всего Интернета, а это огромный объем данных.

Поэтому раньше поисковые машины старались экономить место на дисках и время работы сервера и отбрасывали при индексации некоторые неважные, служебные слова, так называемые стоп-слова, например предлоги, союзы, чис­ла, сокращения и т.п. Отбрасывали они также и цифры.

В дальнейшем оказалось, что пользователи все-таки достаточно часто запраши­вают такие слова, поэтому их нужно хранить (особенно для поиска точных цитат, включающих эти служебные слова). А стоимость хранения мегабайта данных к настоящему времени существенно снизилась — жесткие диски стали дешевы. Так что сейчас большинство популярных поисковиков индексируют все слова в текстах, в том числе и стоп-слова — предлоги, союзы, междометия. Индексируют они также и цифры, и буквенно-цифровые комбинации (т.е. считают их словами).

Так что сейчас вы можете поискать в Яндексе или Рамблере, например, пред­лог "в". Это, кстати говоря, хороший способ понять, сколько всего страниц в ин­дексе поисковика, поскольку предлог "в" есть в любом русскоязычном тексте.

 

���� ������������



���� ������������


���� ������������
������.�������