Если вы используете Python даже для самых простых задач, вы, вероятно, знаете о важности его сторонних библиотек. Библиотека Pandas с ее отличной поддержкой DataFrames является одной из таких библиотек.
Вы можете импортировать несколько типов файлов в Python DataFrames и создавать различные версии для хранения разных наборов данных. После того, как вы импортируете свои данные с помощью DataFrames, вы можете объединить их для выполнения подробного анализа.
Работа с основами
Прежде чем вы начнете слияние, вам нужно иметь DataFrames для слияния. В целях разработки вы можете создать некоторые фиктивные данные для экспериментов.
Создайте кадры данных в Python
В качестве первого шага импортируйте библиотеку Pandas в файл Python. Pandas — это сторонняя библиотека, которая обрабатывает DataFrames в Python. Вы можете использовать импорт оператор для использования библиотеки, как показано ниже:
импорт панды в качестве пд
Вы можете назначить псевдоним имени библиотеки, чтобы сократить ссылки на код.
Вам нужно создать словари, которые вы можете конвертировать в DataFrames. Для достижения наилучших результатов создайте две переменные словаря:
дикт1 а также дикт2—для хранения определенных фрагментов информации:дикт1 = {"ID пользователя": ["001", "002", "003", "004", "005"],
"FName": ["Джон", "Брэд", "Рон", "Роальд", "Крис"],
"LName": ["Харлей", "Коэн", "Даль", "Харрингтон", "Керр-Хислоп"]}
дикт2 = {"ID пользователя": ["001", "002", "003", "004"], "Возраст": [15, 28, 34, 24]}
Помните, что вам нужно иметь общий элемент в обоих значениях словаря, чтобы он служил первичным ключом для последующего объединения ваших фреймов данных.
Преобразуйте свои словари в фреймы данных
Чтобы преобразовать значения вашего словаря в DataFrames, вы можете использовать следующий метод:
df1 = рд. Кадр данных (dict1)
df2 = рд. Кадр данных (dict2)
Некоторые IDE позволяют проверять значения в DataFrame, обращаясь к функции DataFrame и нажимая Выполнить/Выполнить. Есть много Python-совместимые IDE, так что вы можете выбрать тот, который вам легче всего изучить.
Как только вы будете удовлетворены содержимым своих DataFrames, вы можете перейти к шагу слияния.
Объединение кадров с помощью функции слияния
Функция слияния — это первая функция Python, которую вы можете использовать для объединения двух фреймов данных. Эта функция принимает следующие аргументы по умолчанию:
pd.merge (DataFrame1, DataFrame2, как= типизсливаться)
Где:
- пд это псевдоним для библиотеки Pandas.
- сливаться это функция, которая объединяет DataFrames.
- DataFrame1 а также DataFrame2 два кадра данных для слияния.
- как определяет тип слияния.
Доступны некоторые дополнительные необязательные аргументы, которые можно использовать при наличии сложной структуры данных.
Вы можете использовать разные значения параметра «как», чтобы определить тип выполняемого слияния. Эти типы слияния будут знакомы, если вы использовал SQL для соединения таблиц базы данных.
Слияние слева
Левый тип слияния сохраняет значения первого кадра данных без изменений и извлекает соответствующие значения из второго кадра данных.
Правое слияние
Правильный тип слияния сохраняет значения второго кадра данных без изменений и извлекает соответствующие значения из первого кадра данных.
Внутреннее слияние
Внутренний тип слияния сохраняет совпадающие значения из обоих DataFrames и удаляет несовпадающие значения.
Внешнее слияние
Внешний тип слияния сохраняет все совпадающие и несовпадающие значения и объединяет кадры данных вместе.
Как использовать функцию Concat
конкат Функция является гибкой опцией по сравнению с некоторыми другими функциями слияния Python. С помощью функции concat вы можете комбинировать кадры данных по вертикали и горизонтали.
Однако недостатком использования этой функции является то, что она по умолчанию отбрасывает любые несовпадающие значения. Как и некоторые другие связанные функции, эта функция имеет несколько аргументов, из которых лишь несколько необходимы для успешной конкатенации.
concat (кадры данных, ось = 0, соединение ='внешний'/’внутренний’)
Где:
- конкат это функция, которая объединяет DataFrames.
- кадры данных представляет собой последовательность DataFrames для объединения.
- ось представляет направление конкатенации, 0 — по горизонтали, 1 — по вертикали.
- присоединиться указывает либо внешнее, либо внутреннее соединение.
Используя два вышеупомянутых кадра данных, вы можете попробовать функцию concat следующим образом:
# определить кадры данных в формате списка
df_merged_concat = pd.concat([df1, df2])
# вывести результаты функции Concat
Распечатать(df_merged_concat)
Отсутствие аргументов оси и соединения в приведенном выше коде объединяет два набора данных. В результирующем выводе есть все записи, независимо от статуса совпадения.
Точно так же вы можете использовать дополнительные аргументы для управления направлением и выводом функции concat.
Чтобы контролировать вывод со всеми совпадающими записями:
# Объединение всех совпадающих значений между двумя кадрами данных на основе их столбцов
df_merged_concat = pd.concat([df1, df2], ось = 1, соединение = 'внутренний')
Распечатать(df_merged_concat)
Результат содержит все совпадающие значения только между двумя кадрами данных.
Слияние фреймов данных с Python
DataFrames являются неотъемлемой частью Python, учитывая их гибкость и функциональность. Учитывая их многогранное использование, вы можете использовать их широко для выполнения различных задач с максимальной легкостью.
Если вы все еще изучаете Python DataFrames, попробуйте импортировать несколько файлов Excel, а затем комбинируйте их с помощью различных подходов.