Реклама

импортировать данные в таблицу GoogleКогда дело доходит до онлайновых баз данных и информации, которую можно найти внутри того, что обычно называют «невидимая сеть 12 лучших поисковых систем для изучения невидимой сетиGoogle или Bing не могут искать все. Чтобы исследовать невидимую сеть, вам нужно использовать эти специальные поисковые системы. Прочитайте больше «Я не ваш типичный пользователь. Конечно, я трачу слишком много времени, просматривая онлайн-базы данных в таких местах, как Национальный архив и чтение ЦРУ FOIA. комната, но я должен сказать, что ничто не делает меня более взволнованным, чем когда я нахожу таблицу на основе HTML, заполненную объемами, казалось бы, сложных и не связанных данные.

Дело в том, что таблицы данных - золотая жила важных истин. Данные часто собираются армиями сборщиков данных с сапогами на земле. У вас есть люди из переписи населения США, которые путешествуют по всей стране для получения информации о семье и семье. У вас есть некоммерческие экологические группы, собирающие всевозможную интересную информацию об окружающей среде, загрязнении, глобальном потеплении и многом другом. И если вы в паранормальном или уфологии, есть также постоянно обновляемые таблицы информации о наблюдениях странных объектов в небе над нами.

instagram viewer

По иронии судьбы, вы могли бы подумать, что любое правительство в мире было бы интересно узнать, какого рода Иностранные суда обнаруживаются в небе над любой страной, но, по-видимому, нет - по крайней мере, в США. так или иначе. В Америке коллекция необычных наблюдений за ремеслами была передана командам любителей-любителей, которые устремляются к новым наблюдениям НЛО, как мотыльки к огню. Мой интерес к этим наблюдениям на самом деле связан не с увлечением пришельцами или ремеслами с других планет, а с научным увлечением узорами - где и почему все больше людей видят вещи в небе, и могут ли эти наблюдения отражать что-то очень реальное и гораздо более приземленное на самом деле на.

Чтобы изучить объемы данных, собранных командами любителей НЛО, я фактически разработал способ импорта больших таблиц HTML из данные в электронную таблицу Google, а затем манипулировать и анализировать эти данные, чтобы извлечь и обнаружить значимые и важные Информация. В этой статье я намерен показать вам, как сделать то же самое.

Важные данные HTML в таблицу Google

В этом примере я покажу вам, как импортировать любые данные, которые могут храниться в таблице на любом веб-сайте в Интернете, в вашу таблицу Google. Подумайте об огромном объеме данных, которые сегодня доступны в Интернете в виде таблиц HTML. В одной только Википедии есть данные в таблицах по таким темам, как глобальное потеплениеБюро переписей США имеет тонны наборы данных о населении, и немного Googling принесет вам намного больше, чем это.

В моем примере я начинаю с базы данных в Национальном центре отчетов об НЛО, которая на самом деле выглядит так, как будто это может быть база данных глубокого Интернета в стиле запросов, но если вы наблюдаете Структурирование URL, это на самом деле полусложная веб-система отчетности, состоящая из статических веб-страниц и статических таблиц HTML - именно то, что нам нужно при поиске импорт.
импортировать данные в таблицу Google
NUForc.org является одной из тех организаций, которая служит одним из крупнейших центров отчетности по наблюдениям НЛО. Это не единственный, но он достаточно большой, чтобы найти новые наборы данных с текущими наблюдениями за каждый месяц. Вы выбираете просмотр данных, отсортированных по критериям, таким как состояние или дата, и каждый из них предоставляется в виде статической страницы. Если вы отсортируете по дате, а затем нажмете на самую последнюю дату, вы увидите, что в указанной таблице есть статическая веб-страница, названная в соответствии с форматом даты.
импортировать данные в Google Docs
Итак, теперь у нас есть шаблон для регулярного извлечения последней информации о наблюдениях из этой базы данных на основе HTML. Все, что вам нужно сделать, это импортировать первую таблицу, использовать самую последнюю запись (верхнюю), чтобы определить последнее обновление, а затем использовать дату этой публикации, чтобы построить ссылку URL, где последняя таблица данных HTML существуют. Для этого просто потребуется пара экземпляров функции ImportHTML, а затем несколько творческих вариантов использования функций манипулирования текстом. Когда вы закончите, у вас будет одна из самых крутых, самостоятельно обновляемых электронных таблиц отчетности. Давайте начнем.

Импорт таблиц и манипулирование данными

Первым шагом, конечно же, является создание новой таблицы.
импортировать данные в Google Docs
Итак, как вы импортируете таблицы HTML? Все, что вам нужно, это URL, где хранится таблица, и номер таблицы на странице - обычно первая в списке равна 1, вторая - 2 и т. Д. Так как я знаю URL этой первой таблицы, в которой перечислены даты и количество наблюдений в списке, можно импортировать, введя следующую функцию в ячейку A1.

= ImportHtml ( « http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)

H2 держит функцию «= час (сейчас ())«, Поэтому таблица будет обновляться каждый час. Это, вероятно, экстремально для данных, которые обновляют это нечасто, поэтому я, вероятно, мог бы сойти с рук делать это ежедневно. В любом случае, приведенная выше функция ImportHTML выводит таблицу, как показано ниже.
UFOReport4
Вам нужно немного поработать с данными на этой странице, прежде чем вы сможете собрать воедино URL для второй таблицы со всеми наблюдениями НЛО. Но продолжайте и создайте второй лист в рабочей тетради.
импортировать данные в Google Docs
Прежде чем пытаться построить этот второй лист, пора извлечь дату публикации из этой первой таблицы, чтобы создать ссылку на вторую таблицу. Проблема в том, что дата вводится в формате даты, а не в виде строки. Итак, сначала вам нужно использовать функцию TEXT для преобразования даты публикации отчета в строку:

= текст (A2, «мм / дд / гг»)

В следующей ячейке справа вам нужно использовать функцию SPLIT с разделителем «/», чтобы разбить дату на месяц, день и год.

= разделить (D2, ”/”)
импортировать в таблицу Google
Хорошо смотритесь! Тем не менее, каждый номер должен быть двухзначным. Вы делаете это в ячейках прямо под ними, снова используя команду TEXT.

= текст (E2, ”00 ″)

Формат «00» (это нули) заставляет две цифры, или «0» в качестве заполнителя.
импортировать в таблицу Google
Теперь вы готовы перестроить весь URL к последней таблице HTML новых наблюдений. Вы можете сделать это, используя функцию CONCATENATE и собрав воедино все биты информации, которые вы только что извлекли из первой таблицы.

= Конкатенации ( « http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
импортировать в таблицу Google
Теперь на новом листе, который вы создали выше (чистый лист), вы собираетесь выполнить новую функцию «importhtml», но на этот раз для первого Параметр URL-ссылки, поэтому вы вернетесь к первой электронной таблице и щелкните ячейку с только что созданной URL-ссылкой.
UFOReport9
Второй параметр - «таблица», а последний - «1» (поскольку таблица наблюдений является первой и единственной на странице). Нажмите Enter, и вы только что импортировали весь объем наблюдений, которые были опубликованы в эту конкретную дату.
UFOReport10
Итак, вы, вероятно, думаете, что это хороший новизна, и все - я имею в виду, в конце концов, то, что вы сделали, извлечено существующую информацию из таблицы в Интернете и перенести ее в другую таблицу, хотя и частную в ваших Документах Google Счет. Да, это правда. Однако теперь, когда он находится в вашей личной учетной записи Google Docs, у вас под рукой есть инструменты и функции, позволяющие лучше анализировать эти данные и начать обнаруживать удивительные связи.

Использование сводных отчетов для анализа импортированных данных

Совсем недавно я написал статью об использовании Сводные отчеты в электронной таблице Google Станьте экспертом по анализу данных за одну ночь, используя инструменты отчетов Google SpreadsheetЗнаете ли вы, что одним из лучших инструментов для анализа данных на самом деле является Google Spreadsheet? Причина этого не только в том, что он может делать почти все, что вы могли бы хотеть ... Прочитайте больше выполнять все виды крутых подвигов анализа данных. Ну, вы можете сделать ту же самую удивительную акробатику анализа данных на данных, которые вы импортировали из Интернета - давая вам возможность раскрыть интересные связи, которые, возможно, еще никто не обнаружил раньше вы.

Например, из окончательной таблицы наблюдений я мог бы решить использовать сводный отчет, чтобы взглянуть на число различные уникальные формы, сообщаемые в каждом штате, по сравнению с общим числом наблюдений в этом конкретном штат. Наконец, я также отфильтровываю что-либо, упоминающее «инопланетян» в разделе комментариев, чтобы, надеюсь, отсеять некоторые из более крупных записей.
UFOReport11
Это на самом деле показывает некоторые довольно интересные вещи сразу, такие как тот факт, что в Калифорнии явно самый высокий число зарегистрированных наблюдений какого-либо другого государства, а также различие в сообщении о самом большом количестве форм судов в страна. Это также показывает, что Массачусетс, Флорида и Иллинойс также играют большую роль в отделе наблюдения НЛО (по крайней мере, по самым последним данным).

Еще одна интересная вещь в Google Spreadsheet - это широкий спектр доступных вам диаграмм, включая географическую карту, которая позволяет вам выложить «горячие точки» данных в графическом формате, который действительно выделяется и делает эти связи внутри данных вполне очевидно.
импортировать данные в таблицу Google
Если вы думаете об этом, это действительно только верхушка айсберга. Если теперь вы можете импортировать данные из таблиц данных на любой странице в Интернете, просто подумайте о возможностях. Получите последние номера акций, самые последние 10 лучших книг и авторов в списке бестселлеров New York Times, или самые продаваемые автомобили в мире. Существуют HTML-таблицы практически на любую тему, которую вы можете себе представить, и во многих случаях эти таблицы часто обновляются.

ImportHtml дает вам возможность подключить вашу электронную таблицу Google к Интернету и получать данные, которые там существуют. Он может стать вашим личным центром информации, который вы можете использовать для манипулирования и преобразования в формат, с которым вы можете работать. Еще одна очень крутая вещь, которую нужно любить в Google Spreadsheet.

Вы когда-нибудь импортировали данные в свои таблицы? Какие интересные вещи вы обнаружили в этих данных? Как вы использовали данные? Поделитесь своим опытом и идеями в разделе комментариев ниже!

Кредиты изображений: Бизнес График

Райан имеет степень бакалавра в области электротехники. Он 13 лет проработал в области автоматизации, 5 лет - в сфере информационных технологий, а сейчас является инженером приложений. Бывший управляющий редактор MakeUseOf, он выступал на национальных конференциях по визуализации данных и был представлен на национальном телевидении и радио.