Чтобы проанализировать набор данных, вам сначала нужно понять данные. Иногда у вас может не быть предварительных знаний о наборе данных, что не позволяет вам извлечь из него максимальную пользу. Как аналитик данных, вы можете использовать исследовательский анализ данных (EDA), чтобы получить представление о своем наборе данных перед углубленным анализом.
Исследовательский анализ данных (EDA) исследует набор данных, чтобы получить содержательную информацию. Процесс выполнения EDA включает запрос информации о структуре и содержании набора данных.
Установка пакета Gota
Пакет Gota наиболее популярен для анализ данных в Го; это как Пакет Python Pandas но для Го. Пакет Gota содержит множество методов для анализа наборов данных и чтения форматов JSON, CSV и HTML.
Запустите эту команду на своем терминале в каталоге, где вы инициализировали файл модуля Go:
идти получить -u github.com/идти-гота/гота
Команда установит Gota в локальный каталог, чтобы вы могли импортировать пакет для его использования.
Как и Pandas, Gota поддерживает операции с сериями и кадрами данных. В пакете Gota есть два подпакета: серия и пакет данных. Вы можете импортировать один или оба, в зависимости от ваших потребностей.
импорт (
"github.com/идти-гота/гота/серия"
"github.com/идти-гота/гота/фрейм данных"
)
Чтение набора данных с помощью пакета Gota
Вы можете использовать любой файл CSV, который вам нравится, но в следующих примерах показаны результаты набор данных Kaggle, содержащий данные о ценах на ноутбуки.
Gota позволяет читать форматы файлов CSV, JSON и HTML для создания фреймов данных с помощью ЧтениеCSV, ReadJSON, а также ЧитатьHTML методы. Вот как вы загружаете файл CSV в объект фрейма данных:
файл, ошибка := os. Открыть("/путь/к/csv-файлу.csv")
если ошибся != ноль {
ФМТ. Println("Ошибка открытия файла")
}
кадр данных := кадр данных. ЧитатьCSV(файл)
ФМТ. Println (фрейм данных)
Вы можете использовать Открытым метод Операционные системы package, чтобы открыть CSV-файл. Метод ReadCSV считывает объект файла и возвращает объект фрейма данных.
Когда вы печатаете этот объект, вывод имеет табличный формат. Вы можете дополнительно манипулировать объектом dataframe, используя различные методы, которые предоставляет Gota.
Объект будет печатать только некоторые столбцы, если в наборе данных больше заданного значения.
Получение измерения набора данных
Размеры фрейма данных — это количество содержащихся в нем строк и столбцов. Вы можете получить эти размеры, используя Димс метод объекта dataframe.
вар строки, столбцы = кадр данных. Димс ()
Замените одну из переменных символом подчеркивания, чтобы получить только другое измерение. Вы также можете запросить количество строк и столбцов по отдельности, используя сейчас а также нкол методы.
вар строки = кадр данных. Сейчас()
вар столбцы = кадр данных. Nкол()
Получение типов данных столбцов
Вам нужно знать составные типы данных в столбцах набора данных, чтобы анализировать его. Вы можете получить их с помощью Типы метод вашего объекта dataframe:
вар типы = кадр данных. Типы()
ФМТ. Println (типы)
Метод Types возвращает срез, содержащий типы данных столбца:
Получение имен столбцов
Вам понадобятся имена столбцов, чтобы выбрать определенные столбцы для операций. Вы можете использовать Имена способ их получения.
вар имена столбцов := кадр данных. Имена()
ФМТ. Println (названия столбцов)
Метод Names возвращает фрагмент имен столбцов.
Проверка пропущенных значений
У вас может быть набор данных, содержащий нулевые или нечисловые значения. Вы можете проверить наличие таких значений с помощью HasNaN а также ИсНаН методы объекта серии:
aCol := кадр данных. Кол ("размер_дисплея")
вар hasNull = aCol. HasNaN()
вар isNotNumber = столбец. ИсНаН()
HasNan проверяет, содержит ли столбец нулевые элементы. IsNaN возвращает часть логических значений, представляющих, является ли каждое значение в столбце числом.
Выполнение описательного статистического анализа
Описательный статистический анализ помогает понять распределение числовых столбцов. С использованием Описывать метод, вы можете произвести описательный статистический анализ вашего набора данных:
описание := кадр данных. Описывать()
ФМТ. Println (описание)
Метод Describe возвращает такие показатели, как среднее значение, стандартное отклонение и максимальные значения столбцов в наборе данных. Он суммирует их в табличном формате.
Вы также можете быть конкретным и сосредоточиться на столбцах и метриках, выбрав конкретный столбец, а затем запросив нужную метрику. Сначала вы должны получить ряд, представляющий конкретный столбец, а затем использовать его методы следующим образом:
aCol := кадр данных. Кол ("размер_дисплея")
вар среднее значение = aCol. Иметь в виду()
вар медиана = aCol. Медиана()
вар минимум = aCol. Мин()
вар стандартное отклонение = aCol. Стандартное отклонение()
вар максимум = aCol. Максимум()
вар квантили25 = aCol. квантиль(25.0)
Эти методы отражают результаты описательного статистического анализа, который выполняет Describe.
Извлечение элементов в столбце
Одна из последних задач, которую вам нужно выполнить, — это проверить значения в столбце для общего обзора. Вы можете использовать Рекорды способ просмотра значений столбца.
aCol := кадр данных. Кол ("бренд")
ФМТ. Println (аКол. Записи())
Этот метод возвращает фрагмент строк, содержащих значения в выбранном столбце:
Экспорт Gota Dataframe в файл
Если вы решите пойти дальше и использовать пакет Gota для полного анализа данных, вам нужно будет сохранить данные в файлах. Вы можете использовать Написать CSV а также НаписатьJSON методы dataframe для экспорта файлов. Методы принимают файл, который вы создадите с помощью Операционные системы пакет Создавать метод.
Вот как вы можете экспортировать фрейм данных с помощью пакета Gota.
кадр данных := кадр данных. ЧитатьCSV(файл)
выходной файл, ошибка := os. Создать("выход.csv")если ошибся != ноль {
журнал. Фатальный (ошибка)
}ошибка = кадр данных. WriteCSV (выходной файл)
если ошибся != ноль {
журнал. Fatalln("Произошла ошибка записи содержимого фрейма данных в файл")
}
кадр данных переменная является представлением фрейма данных. Когда вы используете Создавать метод Операционные системы package, он создает новый пустой файл с указанным именем и возвращает файл. Метод WriteCSV принимает экземпляр файла и возвращает ошибку или ноль если нет ошибки.
Исследовательский анализ данных важен
Понимание данных и наборов данных необходимо для аналитиков данных и специалистов по машинному обучению. Это критически важная операция в их рабочем цикле, и исследовательский анализ данных — один из методов, которые они используют для достижения этой цели.
В пакете Gota есть еще кое-что. Вы можете использовать его для различных функций обработки данных так же, как вы используете библиотеку Python Pandas для анализа данных. Однако Gota не поддерживает столько функций, сколько Pandas.