Библиотека pandas упрощает изучение данных на основе Python. Это популярная библиотека Python для чтения, объединения, сортировки, очистки данных и многого другого. Несмотря на то, что pandas прост в использовании и применении к наборам данных, в нем есть множество функций управления данными, которые нужно изучить.

Вы можете использовать pandas, но есть большая вероятность, что вы недостаточно используете его для решения проблем, связанных с данными. Вот наш список ценных данных, управляющих функциями pandas, которые должен знать каждый специалист по данным.

Установите pandas в свою виртуальную среду

Прежде чем мы продолжим, убедитесь, что вы установили pandas в свою виртуальную среду с помощью pip:

пип установить панды

После установки импортируйте панды в верхней части вашего скрипта, и давайте продолжим.

1. панды. кадр данных

Ты используешь панды. Кадр данных() для создания DataFrame в pandas. Есть два способа использования этой функции.

Вы можете сформировать DataFrame по столбцам, передав словарь в панды. Кадр данных() функция. Здесь каждый ключ — это столбец, а значения — это строки:

instagram viewer
импортировать панд
DataFrame = панды. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
печать (DataFrame)

Другой метод заключается в формировании DataFrame по строкам. Но здесь вы будете отделять значения (элементы строк) от столбцов. Количество данных в каждом списке (данные строки) также должно соответствовать количеству столбцов.

импортировать панд
DataFrame = панды. DataFrame([[1, 4, 5], [7, 19, 13]], столбцы = ["J", "K", "L"])
печать (DataFrame)

2. Чтение и запись в Excel или CSV в пандах

Вы можете читать или писать в файлы Excel или CSV с помощью pandas.

Чтение файлов Excel или CSV

Чтобы прочитать файл Excel:

#Замените example.xlsx на путь к файлу Excel
DataFrame = DataFrame.read_excel("example.xlsx")

Вот как читать файл CSV:

#Замените example.csv на путь к файлу CSV
DataFrame = DataFrame.read_csv("example.csv")

Запись в Excel или CSV

Запись в Excel или CSV — хорошо известная операция pandas. И это удобно для сохранения только что вычисленных таблиц в отдельные таблицы данных.

Чтобы записать на лист Excel:

DataFrame.to_excel("полный_путь_к_целевой_папке/имя_файла.xlsx")

Если вы хотите записать в CSV:

DataFrame.to_csv("полный_путь_к_целевой_папке/имя_файла.csv")

Вы также можете вычислить центральные тенденции каждого столбца в DataFrame, используя pandas.

Вот как получить среднее значение каждого столбца:

Кадр данных.среднее()

Для медианы или значения моды замените значит() с участием медиана() или Режим().

4. DataFrame.transform

панды DataFrame.transform () изменяет значения DataFrame. Он принимает функцию в качестве аргумента.

Например, приведенный ниже код умножает каждое значение в DataFrame на три, используя Лямбда-функция Python:

DataFrame = DataFrame.transform (лямбда y: y*3)
печать (DataFrame)

5. DataFrame.isnull

Эта функция возвращает логическое значение и помечает все строки, содержащие нулевые значения, как Истинный:

DataFrame.isnull()

Результат приведенного выше кода может быть трудно прочитать для больших наборов данных. Таким образом, вы можете использовать isnull().сумма() функция вместо этого. Это возвращает сводку всех отсутствующих значений для каждого столбца:

DataFrame.isnull().sum()

6. Dataframe.info

То Информация() функция представляет собой основная операция панд. Вместо этого он возвращает сводку неотсутствующих значений для каждого столбца:

DataFrame.info()

7. DataFrame.describe

То описывать() функция дает вам сводную статистику DataFrame:

DataFrame.describe()

8. DataFrame.replace

С помощью DataFrame.replace() метод в pandas, вы можете заменить выбранные строки другими значениями.

Например, чтобы поменять местами неверные строки с Нэн:

# Убедитесь, что вы установили numpy, чтобы это работало
импортировать numpy
импортировать панд
# Добавление ключевого слова на месте и установка для него значения True делает изменения постоянными:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
печать (DataFrame)

9. DataFrame.fillna

Эта функция позволяет заполнить пустые строки определенным значением. Вы можете заполнить все Нэн строки в наборе данных со средним значением, например:

DataFrame.fillna(df.mean(), inplace = True)
печать (DataFrame)

Вы также можете указать столбец:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
печать (DataFrame)

10. DataFrame.dropna

То дропна () метод удаляет все строки, содержащие нулевые значения:

DataFrame.dropna (на месте = True)
печать (DataFrame)

11. DataFrame.insert

Вы можете использовать панд вставлять() Функция для добавления нового столбца в DataFrame. Он принимает три ключевых слова, имя столбца, список его данных и его место расположения, который является индексом столбца.

Вот как это работает:

DataFrame.insert (столбец = 'C', значение = [3, 4, 6, 7], loc = 0)
печать (DataFrame)

Приведенный выше код вставляет новый столбец в индекс нулевого столбца (он становится первым столбцом).

12. DataFrame.loc

Ты можешь использовать место чтобы найти элементы в определенном индексе. Например, чтобы просмотреть все элементы в третьей строке:

DataFrame.loc[2]

13. DataFrame.pop

Эта функция позволяет удалить указанный столбец из кадра данных pandas.

Он принимает пункт ключевое слово, возвращает извлеченный столбец и отделяет его от остальной части DataFrame:

DataFrame.pop (элемент = 'имя_столбца')
печать (DataFrame)

14. DataFrame.max, мин

Получить максимальное и минимальное значения с помощью pandas легко:

Кадр данных.мин()

Приведенный выше код возвращает минимальное значение для каждого столбца. Чтобы получить максимум, замените мин с участием Максимум.

15. DataFrame.присоединиться

То присоединиться() Функция pandas позволяет объединять DataFrames с разными именами столбцов. Вы можете использовать левое, правое, внутреннее или внешнее соединение. Чтобы левое соединение DataFrame с двумя другими:

#Соединить слева более длинные столбцы с более короткими
newDataFrame = df1.join([df_shorter2, df_shorter3], как='left')
печать (новый кадр данных)

Чтобы объединить кадры данных с похожими именами столбцов, вы можете различать их, добавляя суффикс слева или справа. Сделайте это, включив лсуффикс или рсуффикс ключевое слово:

newDataFrame = df1.join([df2, rsuffix='_', как='outer') 
печать (новый кадр данных)

16. DataFrame.combine

То комбинировать() Функция удобна для объединения двух фреймов данных, содержащих одинаковые имена столбцов, на основе заданных критериев. Он принимает функция ключевое слово.

Например, чтобы объединить два кадра данных с похожими именами столбцов только на основе максимальных значений:

newDataFrame = df.combine (df2, numpy.минимум)
печать (новый кадр данных)

Примечание: Вы также можете определить пользовательскую функцию выбора и вставить numpy.минимум.

17. DataFrame.astype

То astype() Функция изменяет тип данных определенного столбца или DataFrame.

Например, чтобы изменить все значения в DataFrame на строку:

DataFrame.astype (ул.)

18. DataFrame.sum

То сумма() функция в pandas возвращает сумму значений в каждом столбце:

DataFrame.sum()

Вы также можете найти совокупную сумму всех элементов, используя сперма ():

DataFrame.cumsum()

19. DataFrame.drop

панды уронить() Функция удаляет определенные строки или столбцы в DataFrame. Вы должны указать имена столбцов или индекс строки и ось, чтобы использовать его.

Например, чтобы удалить определенные столбцы:

df.drop (столбцы = ['столбец1', 'столбец2'], ось = 0)

Например, чтобы удалить строки по индексам 1, 3 и 4:

df.drop([1, 3, 4], ось=0)

20. DataFrame.corr

Хотите найти корреляцию между целыми столбцами и столбцами с плавающей запятой? панды могут помочь вам достичь этого, используя корр() функция:

DataFrame.corr()

Вышеприведенный код возвращает новый DataFrame, содержащий последовательность корреляции между всеми целыми или плавающими столбцами.

21. DataFrame.add

То добавлять() Функция позволяет добавлять определенное число к каждому значению в DataFrame. Он работает, перебирая DataFrame и работая с каждым элементом.

Связанный:Как использовать циклы for в Python

Чтобы добавить 20 к каждому из значений в определенном столбце, содержащем целые числа или числа с плавающей запятой, например:

DataFrame['interger_column'].добавить (20)

22. DataFrame.sub

Подобно функции сложения, вы также можете вычесть число из каждого значения в DataFrame или конкретном столбце:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Это версия умножения функции сложения панд:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Точно так же вы можете разделить каждую точку данных в столбце или DataFrame на определенное число:

DataFrame['interger_column'].div (20)

25. DataFrame.std

С помощью станд() Функция pandas также позволяет вычислить стандартное отклонение для каждого столбца в DataFrame. Он работает, перебирая каждый столбец в наборе данных и вычисляя стандартное отклонение для каждого:

DataFrame.std()

26. DataFrame.sort_values

Вы также можете сортировать значения по возрастанию или по убыванию на основе определенного столбца. Чтобы отсортировать DataFrame в порядке убывания, например:

newDataFrame = DataFrame.sort_values ​​(по = "colmun_name", по убыванию = True)

27. DataFrame.melt

То таять() Функция в pandas переворачивает столбцы в DataFrame на отдельные строки. Это похоже на раскрытие анатомии DataFrame. Таким образом, он позволяет вам явно просматривать значение, присвоенное каждому столбцу.

новыйDataFrame = DataFrame.melt()

28. DataFrame.count

Эта функция возвращает общее количество элементов в каждом столбце:

DataFrame.count()

29. DataFrame.запрос

панды запрос() позволяет вам вызывать элементы, используя их порядковый номер. Чтобы получить элементы в третьей строке, например:

DataFrame.query('4') # Вызов запроса по четвертому индексу

30. DataFrame.где

То где() Функция — это запрос pandas, который принимает условие для получения определенных значений в столбце. Например, чтобы получить все возрасты младше 30 лет из Возраст столбец:

DataFrame.where (DataFrame['Возраст'] < 30)

Приведенный выше код выводит DataFrame, содержащий все возрасты младше 30 лет, но присваивает Нэн к строкам, которые не соответствуют условию.

Обрабатывайте данные как профессионал с пандами

pandas — это кладезь функций и методов для обработки небольших и крупных наборов данных с помощью Python. Библиотека также пригодится для очистки, проверки и подготовки данных для анализа или машинного обучения.

Потратив время на его освоение, вы определенно облегчите себе жизнь как специалиста по обработке и анализу данных, и это того стоит. Так что не стесняйтесь брать все функции, с которыми вы можете справиться.

20 функций Python, которые вы должны знать

Стандартная библиотека Python содержит множество функций, которые помогут вам в решении задач программирования. Узнайте о самых полезных и создайте более надежный код.

Читать дальше

доляТвитнутьЭлектронное письмо
Похожие темы
  • Программирование
  • питон
  • Программирование
  • база данных
Об авторе
Идову Омисола (опубликовано 123 статьи)

Idou увлечен всеми умными технологиями и производительностью. В свободное время он играет с программированием и переключается на шахматную доску, когда ему скучно, но он также любит время от времени отрываться от рутины. Его страсть показывать людям, как работают современные технологии, побуждает его писать больше.

Другие работы Идову Омисолы

Подписывайтесь на нашу новостную рассылку

Подпишитесь на нашу рассылку технических советов, обзоров, бесплатных электронных книг и эксклюзивных предложений!

Нажмите здесь, чтобы подписаться