Методы сбора и обработки данных

Чтобы собрать данные о сети в интернете, нужно или использовать уже существующий архив или собрать новые данные, используя скрэперы (скребки) и спайдеры (пауки).

Скрэперы – это автоматизированные компьютерные программы, которые берут веб-страницу и парсят ее контент, таким образом, этот контент становится пригодным к использованию в качестве данных.

Спайдеры – это специальный класс программ, они следуют по рёбрам связей и собирают информацию. Для спайдеров часто используется «первоначальный посев» – база специально отобранных страниц. Спайдеры возвращают набор пар «нод-нод», который образуется между нодами из «первоначального посева» и новыми страницами.

Исследователь может повторять сбор данных вновь и вновь до тех пор, пока не выявит все связи или пока исследование не удовлетворит определённому критерию (например, такому как два шага за пределы «первоначального посева»). После чего эти пары могут быть собраны в базу данных сети.

Спайдеринг – обычная практика для поисковых систем и для анализа гипертекста. Однако исследователь должен быть осторожен, ему нужно сделать все возможное, чтобы анализировать только существенные связи (а не рекламные объявления), необходимо уважать информационную политику сайтов  (или) получить официальное одобрение от службы поддержки сайта, как правило, в обмен на предложение консультации по вопросам практического использования данных и спайдеринга.

Также существуют информационные базы, которые могут быть использованы для сервисов по сбору сетевых данных. Самым крупным является интернет-архив «Alexa», который сейчас находится в процессе создания массивной базы данных, доступной для исследователей Корнелльского университета.

Кроме него, исследователи могут использовать архив «Wayback machine» для анализа веб-страниц, созданных начиная с 1996 г. Alexa также создаёт актуальные рейтинги самых популярных сайтов. Также можно упомянуть частную базу данных интернет-трафика Нильсена Нетрэтингса и его компании Nielsen BuzzMetrics, которая предлагает публично доступную базу блог-траффика.

Узнай цену консультации

"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)