На главную Creative Данные для анализа статистики
Данные для анализа статистики

Откуда берутся данные для анализа

Все системы статистики берут свои данные из событий, происходящих при обращении браузера пользователя к веб-серверу, который обслуживает ваш сайт.

События эти записываются в журнал сайта, так называемый лог. Логи сайта

При обращении пользователя к сайту происходит сразу несколько событий.

1. Запрос страницы. Клиент (браузер) передает на WWW-сервер запрос на выдачу страницы, при этом на сервере становятся известны:

а)   обязательные параметры: IP-адрес клиента, запрашиваемый URL,
дата и время запроса (по IP-адресу можно определить географическое
положение клиента);

б)   дополнительные параметры (необязательные, но обычно передавае-
мые): используемый пользователем браузер, адрес (URL) предыдущей
страницы, с которой произошел переход, имя пользователя и пароль
для защищенных страниц и т.д.

  1. Выдача страницы. Сервер возвращает клиенту запрошенный документ (HTML или картинку).
  2. Запись в лог. веб-сервер записывает данные о произошедшей транзакции в журнальный файл (лог-файл).

Как правило, веб-страницы (в этой главе будем называть их документами) являются составными, т.е. они состоят из HTML-текста страницы и некоторо­го количества вставленных в текст изображений. Все они передаются в браузер пользователя по отдельности — на самом деле при запросе страницы происхо­дит несколько транзакций, записываемых в лог по отдельности. Необходимо упомянуть также особенности составных документов.

  • Для каждого вложенного документа (изображения, текста во фрейме, сти­левого файла и т.п.) пользовательский браузер делает отдельный запрос.
  • Элементы составного документа могут извлекаться не с одного сайта, а с нескольких разных сайтов (веб-серверов). В этом случае адреса (URL) вложенных элементов описываются в основном, внешнем документе. В данном случае запись о запросе страницы появится не только в логах вашего сайта, но и в журнальных файлах этих третьих серверов.

Вот пример нескольких записей журнального файла:

62.205.178.34  [17/Jun/2005:00:Об:52 +0400]

"/apache-talk/msg05126.html НТТР/1.1" 12854

"http://www.yandex.ru/yandsearch?rpt=rad&text=RFC1945"

"Mozilla/4.0   (compatible; MSIE 6.0; Windows NT 5.1;  SV1; Maxthon;   .NET CLR 1.1.4322)"

"ruid=0000000142BlDAE9000092EA03030F02"

62.205.178.34  [17/Jun/2005:00:06:52 +0400]

"image/color_logo.gif HTTP/1.1" 2649

"http://www.lexa.ru/apache-talk/msg05126.html"

"Mozilla/4.0   (compatible; MSIE 6.0; Windows NT 5.1;  SV1; Maxthon;   .NET CLR 1.1.4322)"

"ruid=0000000142BlDAE9000092EA03030F02"

Здесь первая запись фиксирует получение HTML-страницы, а вторая — вло­женной в нее картинки. Следует уточнить, что в этом примере оставлены толь­ко существенные для изложения поля данных (в порядке следования: IP-адрес, дата, URL, размер документа, URL ссылающейся страницы, название пользо­вательского ПО и идентификатор пользователя).

Журнальные файлы представляют собой сырые данные, которые необходи­мо обработать. Качество обработки этих сырых данных (глубина анализа) и оп­ределяет качество той системы статистики, которую вы будете использовать.

Заметим, что в логах сайта содержится вся необходимая информация, и ника­ких других данных о посещаемости сайта в большинстве случаев не существует.

 

���� ������������



���� ������������


���� ������������
������.�������