Реклама

Что бы вы сказали, если бы я сказал, что в вашем распоряжении есть инструменты для проведения новаторских, потрясающих исследований? Ну, вы делаете, и я покажу вам как.

Правительства, академические учреждения и некоммерческие исследовательские организации публикуют таблицы, полные данных, в открытом доступе. Без использования этой информации ее истинное значение никогда не будет известно. К сожалению, немногие люди имеют понимание, навыки или инструменты для сбора данных и создания интересных взаимосвязей между, казалось бы, не связанной информацией.

Фон

Многие исследования, которые я провожу для своего собственного блога, включают в себя поиск того, что называется невидимая сеть 12 лучших поисковых систем для изучения невидимой сетиGoogle или Bing не могут искать все. Чтобы исследовать невидимую сеть, вам нужно использовать эти специальные поисковые системы. Читать далее , чтобы раскрыть данные, которые были опубликованы для общественности, но скрыты от поисковые системы 5 самых продвинутых поисковых систем в Интернете Читать далее

instagram viewer
внутри онлайн базы данных. Это глубокая паутина TorSearch стремится стать Google для Deep WebTor - это скрытый сервис и часть Deep Web. TorSearch - это новая анонимная поисковая система, которую ее основатель Крис Макнотон хочет сделать «Google of Tor». Читать далее и это изобилует ценными данными. Очень часто я сталкиваюсь с веб-страницами, просто переполненными одними из самых ценных данных по темам, которые охватывают весь спектр от данных переписи до эпидемиологических исследований редких заболеваний. У меня постоянно появляются новые идеи о том, как попытаться сопоставить эти разнородные источники данных, используя различные инструменты - и один из самых ценных инструментов, которые я нашел, - это веб-запрос внутри Microsoft Excel.

Нахождение интересных корреляций данных

Сегодня я покажу вам пример того, как вы можете использовать веб-запросы Excel для извлечения данных из различные веб-сайты, и сопоставьте их друг с другом, чтобы найти потенциальные корреляции между данные.

Чтобы начать такое упражнение, нужно выдвинуть интересную гипотезу. Например - чтобы держать вещи интересными - я собираюсь случайным образом постулировать, что стремительно растущие показатели аутизма в Соединенных Штатах вызваны прививками вакцины или растущим присутствием электромагнитных полей у детей и вокруг них, таких как клетки телефоны. Это сумасшедшая гипотеза, подобную которой вы найдете на большинстве сайтов, посвященных теории заговора, но это то, что делает это забавным. Итак, начнем, не так ли?

Сначала откройте Excel, перейдите к пункту меню данных и найдите значок «Из Интернета» на ленте меню.

веб-запросы excel1

Это то, что вы будете использовать для импорта различных таблиц данных со многих веб-сайтов, которые их опубликовали.

Импорт веб-данных в Excel

Итак, в старые времена вам приходилось пытаться скопировать данные из этой таблицы на веб-странице, вставить их в Excel, а затем решить все сумасшедшие проблемы с форматированием, связанные с этим. Полные хлопоты, и часто это не стоит головной боли. Что ж, с Excel Web Queries эти дни прошли. Конечно, прежде чем вы сможете импортировать данные, вам нужно будет покопаться в Интернете, чтобы найти нужные данные в табличном формате. В моем случае я обнаружил веб-сайт, на котором была опубликована статистика Министерства образования США по числу учащихся государственных школ США, у которых был выявлен аутизм. Там была хорошая таблица с цифрами с 1994 года до 2006 года.

Итак, вы просто нажимаете «Из Интернета», вставляете URL веб-страницы в поле адреса запроса, а затем прокручиваете страницу вниз, пока не увидите желтую стрелку рядом с таблицей с данными, которые вы хотите импортировать.

веб-запросы Excel2

Нажмите на стрелку, чтобы она стала зеленой галочкой.

веб-запросы excel3

Наконец, скажите Excel, в какое поле вы хотите вставить данные таблицы внутри вашей новой электронной таблицы.

веб-запросы Excel4

Тогда - Вуаля! Данные автоматически попадают прямо в вашу электронную таблицу.

веб-запросы excel5
Таким образом, учитывая тенденцию развития аутизма в государственных школах в период с 1996 по 2006 год, пришло время заняться поиском тенденций в области вакцинации и использования мобильных телефонов.

К счастью, я быстро нашел тенденции для абонентов сотовой связи в США с 1985 по 2012 годы. Отличные данные для этого конкретного исследования. Я снова использовал инструмент веб-запросов Excel для импорта этой таблицы.

веб-запросы excel6

Я импортировал эту таблицу в чистый, новый лист. Затем я обнаружил тенденции вакцинации для процента школьников, вакцинированных от различных заболеваний. Я импортировал эту таблицу с помощью инструмента веб-запросов на третий лист. Итак, наконец, у меня было три листа с тремя таблицами, заполненными внешне несвязанными данными, которые я обнаружил в Интернете.

веб-запросы excel8

Следующим шагом является использование Excel для анализа данных и определения любых корреляций. Вот где в игру вступает один из моих любимых инструментов анализа данных - сводная таблица.

Анализ данных в Excel с помощью сводной таблицы

Лучше всего создать свою сводную таблицу на новом пустом листе. Вы хотите использовать мастера для того, что вы собираетесь делать. Чтобы включить мастер сводных таблиц в Excel, нужно одновременно нажимать Alt-D, пока не появится окно с уведомлением. Затем отпустите эти кнопки и нажмите клавишу «P». Затем вы увидите всплывающее окно мастера.

веб-запросы excel10

В первом окне мастера вы хотите выбрать «Несколько диапазонов консолидации», что позволяет вам выбирать данные из всех импортированных вами листов. Делая это, вы можете объединить все эти, казалось бы, не связанные данные в одну мощную сводную таблицу. В некоторых случаях вам может понадобиться помассировать некоторые данные. Например, мне пришлось исправить поле «Год» в таблице аутизма, чтобы оно показывало «1994» вместо «1994-95» - чтобы он лучше соответствовал таблицам на других листах, в которых также был начальный год поле.

веб-запросы excel11

Это общее поле между данными - это то, что вам нужно для того, чтобы попытаться сопоставить информацию, так что имейте это в виду, когда вы ищете в Интернете свои данные.

После того, как сводная таблица будет готова, и вы получите все различные значения данных, отображаемые в одной таблице, настало время провести визуальный анализ, чтобы увидеть, есть ли какая-либо очевидная связь, которая выскакивает у вас.

Визуализация данных является ключевым

Наличие нескольких цифр в таблице - это хорошо, если вы экономист, но самый быстрый и простой способ что "ага!" момент, когда вы пытаетесь найти связи, как иголка в стоге сена, - через диаграммы и графики. Как только у вас есть сводная диаграмма со всеми собранными наборами данных, пришло время создать график. Обычно лучше всего будет работать линейный график, но это зависит от данных. Есть моменты, когда гистограмма работает намного лучше. Постарайтесь понять, какие данные вы просматриваете и какие сравнения форм работают лучше всего.

В этом случае я просматриваю данные с течением времени, поэтому линейный график - действительно лучший способ увидеть тенденции за прошедшие годы. Диаграмма показателей аутизма (зеленый) в сравнении с сокращенными показателями вакцинации (темно-синий), вакцинами против ветряной оспы (светло-синий) и использование сотового телефона (фиолетовый), неожиданная корреляция неожиданно появилась в этом наборе данных, которые я играл с.

веб-запросы Excel12

Как ни странно, тенденция использования сотовых телефонов с 1994 по 2006 год почти идеально соответствовала росту показателей аутизма за тот же период времени. Несмотря на то, что закономерность была совершенно неожиданной, это прекрасный пример того, как объединение интересных данных может выявить захватывающие интересы - предоставляя вам большую проницательность и мотивацию, чтобы продолжать двигаться вперед и искать больше данных, которые могут еще больше укрепить вашу гипотеза.

Одна корреляция, подобная приведенной выше, ничего не доказывает Есть много тенденций, которые нарастают со временем - шаблон может быть совпадением, но он также может быть важным ключом к вашему постоянному поиску большего количества данных в Интернете. К счастью, у вас есть мощный инструмент под названием Excel Web Queries, который сделает этот квест немного проще.

Кредит Фотографии: Кевин Дули через photopinкуб.см

Райан имеет степень бакалавра в области электротехники. Он 13 лет проработал в области автоматизации, 5 лет - в сфере информационных технологий, а сейчас является инженером приложений. Бывший управляющий редактор MakeUseOf, он выступал на национальных конференциях по визуализации данных и был представлен на национальном телевидении и радио.