Воспользуйтесь библиотекой PandasAI Python, чтобы использовать возможности искусственного интеллекта и больших языковых моделей для выполнения задач анализа данных.

Pandas — наиболее распространенная библиотека для управления наборами данных и фреймами данных. Это уже давно стало нормой. Но с развитием искусственного интеллекта была разработана новая библиотека с открытым исходным кодом под названием PandasAI, которая добавляет в Pandas возможности генеративного ИИ.

PandasAI не заменяет Pandas. Вместо этого он дает свои генеративные возможности ИИ. Таким образом, вы можете выполнять анализ данных, общаясь с PandasAI. Затем он абстрагируется от того, что происходит в фоновом режиме, и предоставляет вам вывод вашего запроса.

Установка ПандаАИ

ПандаАИ доступен через PyPI (индекс пакетов Python). Создайте новую виртуальную среду если вы используете локальную IDE. Затем используйте менеджер пакетов pip установить его.

пип установить пандасай

Вы можете столкнуться с ошибкой конфликта зависимостей, подобной показанной ниже, если вы используете Google Colab.

instagram viewer

Не понижайте версию IPython. Просто перезапустите среду выполнения и снова запустите блок кода. Это решит проблему.

Полный исходный код доступен в Репозиторий GitHub.

Понимание примера набора данных

Образец набора данных, которым вы будете манипулировать с помощью PandasAI, — это набор данных о ценах на жилье в Калифорнии от Kaggle. Этот набор данных содержит информацию о жилье из переписи населения Калифорнии 1990 года. В нем есть десять столбцов, которые предоставляют статистику по этим домам. Карточка данных, которая поможет вам узнать больше об этом наборе данных, доступна на Каггл. Ниже приведены первые пять строк набора данных.

Каждый столбец представляет одну статистику дома.

Подключение PandasAI к большой языковой модели

Чтобы подключить PandasAI к большая языковая модель (LLM) как и в случае с OpenAI, вам нужен доступ к его ключу API. Чтобы получить его, перейдите к Платформа OpenAI. Затем войдите в свою учетную запись. Выбирать API под страницей параметров, которая появляется рядом.

После этого нажмите на свой профиль и выберите Просмотр ключей API вариант. На появившейся странице нажмите Создать новый секретный ключ кнопка. Наконец, назовите свой ключ API.

OpenAI сгенерирует ваш ключ API. Скопируйте его, так как он понадобится вам при подключении PandasAI к OpenAI. Убедитесь, что вы держите ключ в секрете, так как любой, у кого есть доступ к нему, может совершать звонки в OpenAI от вашего имени. Затем OpenAI будет взимать плату за звонки с вашего счета.

Теперь, когда у вас есть ключ API, создайте новый скрипт Python и вставьте приведенный ниже код. Вам не нужно будет изменять этот код, так как большую часть времени вы будете строить на нем.

Импортировать панды как пд
от пандасай Импортировать ПандаАИ

# Замените своим набором данных или фреймворком
дф = pd.read_csv("/content/housing.csv")

# Создать экземпляр LLM
от pandasai.llm.openai Импортировать OpenAI
llm = OpenAI (api_token ="ваш токен API")

pandas_ai = PandasAI (llm)

Приведенный выше код импортирует как PandasAI, так и Pandas. Затем он считывает набор данных. Наконец, он создает экземпляр OpenAI LLM.

Теперь вы настроены на общение с вашими данными.

Выполнение простых задач с помощью PandasAI

Чтобы запросить ваши данные, передайте свой фрейм данных и свое приглашение экземпляру класса PandasAI. Начните с печати первых пяти строк вашего набора данных.

pandas_ai (df, приглашение =«Каковы первые пять строк набора данных?»)

Вывод приведенного выше приглашения выглядит следующим образом:

Этот результат идентичен предыдущему обзору набора данных. Это показывает, что PandasAI дает правильные результаты и надежен.

Затем проверьте количество столбцов в вашем наборе данных.

pandas_ai (df, приглашение ='Сколько столбцов в наборе данных? ')

Он возвращает 10, что является правильным количеством столбцов в наборе данных California Housing.

Проверка наличия пропущенных значений в наборе данных.

pandas_ai (df, приглашение =«Есть ли какие-либо пропущенные значения в наборе данных?»)

PandasAI возвращает, что total_bedrooms столбец имеет 207 пропущенных значений, что снова правильно.

Есть много простых задач, которые вы можете решить с помощью PandasAI, вы не ограничены перечисленными выше.

Выполнение сложных запросов с использованием PandasAI

PandasAI поддерживает не только простые задачи. Вы также можете использовать его для выполнения сложных запросов к набору данных. Например, в наборе данных о жилье, если вы хотите определить количество домов, расположенных на остров, имеют стоимость более 100 000 долларов и имеют более 10 комнат, вы можете использовать подсказку ниже.

pandas_ai (df, приглашение = «Сколько домов имеют стоимость больше 100 000?»
"находитесь на острове, и общее количество спален более 10?")

Правильный результат — пять. Это тот же результат, который выводит PandasAI.

Написание и отладка сложных запросов может занять некоторое время у аналитика данных. Приведенное выше приглашение занимает всего две строки естественного языка для выполнения одной и той же задачи. Вам просто нужно точно знать, чего вы хотите достичь, а PandasAI позаботится обо всем остальном.

Рисование диаграмм с использованием PandasAI

Диаграммы являются жизненно важной частью любого процесса анализа данных. Это помогает аналитикам данных визуализировать данные в удобном для человека виде. PandasAI также имеет функцию рисования диаграмм. Вам просто нужно передать кадр данных и инструкцию.

Начните с создания гистограммы для каждого столбца в наборе данных. Это поможет вам визуализировать распределение переменных.

pandas_ai (df, приглашение = «Построить гистограмму для каждого столбца в наборе данных»)

Результат выглядит следующим образом:

PandasAI смог нарисовать гистограмму всех столбцов, не передавая их имена в подсказке.

PandasAI также может строить диаграммы без явного указания, какую диаграмму использовать. Например, вы можете захотеть выяснить корреляцию данных в наборе данных о жилье. Для этого вы можете передать подсказку следующим образом:

pandas_ai (df, приглашение = «Построить корреляцию в наборе данных»)

PandasAI строит корреляционную матрицу, как показано ниже:

Библиотека выбирает тепловую карту и строит корреляционную матрицу.

Передача нескольких кадров данных в экземпляр PandasAI

Работа с несколькими фреймами данных может быть сложной. Особенно для человека, который плохо знаком с анализом данных. PandasAI устраняет этот пробел, поскольку все, что вам нужно сделать, это передать оба фрейма данных и начать использовать подсказки для управления данными.

Создайте два фрейма данных с помощью Pandas.

сотрудники_данные = {
'Идентификатор сотрудника': [1, 2, 3, 4, 5],
'Имя': ['Джон', 'Эмма', 'Лиам', 'Оливия', 'Уильям'],
'Отделение': [«HR», 'Продажи', 'ЭТО', «Маркетинг», «Финансы»]
}

зарплаты_данные = {
'Идентификатор сотрудника': [1, 2, 3, 4, 5],
'Зарплата': [5000, 6000, 4500, 7000, 5500]
}

служащие_df = pd. DataFrame (данные_сотрудников)
зарплаты_df = pd. DataFrame (salaries_data)

Вы можете задать PandasAI вопрос, который касается обоих фреймов данных. Вам нужно только передать оба фрейма данных экземпляру PandasAI.

pandas_ai([employees_df, зарплаты_df], «У кого из сотрудников самая большая зарплата?»)

Он возвращается Оливия что снова является правильным ответом.

Выполнение анализа данных никогда не было проще, PandasAI позволяет вам общаться с вашими данными и легко анализировать их.

Понимание технологии, лежащей в основе PandasAI

PandasAI упрощает процесс анализа данных, тем самым экономя много времени аналитикам данных. Но это абстрагирует то, что происходит на заднем плане. Вам необходимо ознакомиться с генеративным ИИ, чтобы иметь представление о том, как PandasAI работает под капотом. Это также поможет вам быть в курсе последних инноваций в области генеративного ИИ.