База данных фильмов в Интернете (IMDb) — крупнейшая онлайн-база данных, содержащая информацию о фильмах, телесериалах, домашнем видео, видеоиграх и потоковом контенте. Онлайн-база данных содержит миллионы точных записей, которые можно использовать для анализа данных.

Cinemagoer (ранее известный как IMDbPY) — это библиотека Python для управления и извлечения данных из базы данных фильмов IMDb. Вы можете получить доступ к данным о фильмах, людях и компаниях, которые в дальнейшем можно использовать для анализа.

Установка необходимых библиотек

Вам необходимо установить кинозритель Библиотека Python для доступа к IMDb база данных. Выполните следующую команду в командной строке, чтобы установить библиотеку:

точка установить кинозритель

Вы должны иметь pip установлен в вашей системе для установки внешних библиотек Python.

Код, используемый в этом проекте, доступен в Репозиторий GitHub и вы можете использовать его бесплатно по лицензии MIT.

Извлечение данных IMDb с помощью Python

Вам необходимо импортировать библиотеку cinemagoer, прежде чем использовать ее в своем коде.

instagram viewer
от imdb Импортировать Кинозритель
ia = Зритель ()

Приведенный выше код импортирует библиотеку кинотеатра и создает экземпляр класса кинотеатра.

Поиск фильмов

Вы можете искать фильмы с заданным (или похожим) названием, используя search_movie() метод. Например, если вы хотите найти фильмы с названием «рок», вам нужно запустить следующий код:

от imdb Импортировать Кинозритель

# Создание экземпляра класса Cinemagoer
ia = Зритель ()

# Поиск фильмов, в названии которых есть рок
фильмы = ia.search_movie('камень')
Распечатать(кино[0])

Это должно распечатать первый фильм, который он найдет, например:

Вы можете получить фильм по его IMDb ID. Затем вы можете извлечь дополнительную информацию, такую ​​как имена режиссеров и жанры. Вам нужно цикл по списку получить индивидуальную информацию.

от imdb Импортировать Кинозритель

# Создание экземпляра класса Cinemagoer
ia = Зритель ()

# Получение фильма по IMDb ID
фильм = ia.get_movie('0468569')
Распечатать(фильм)

# Печать имен режиссеров фильма
Распечатать('Режиссеры:')

для режиссера в кино['директора']:
печать (режиссёр['имя'])

# печать жанров фильма
Распечатать('Жанры:')

для жанра в кино['жанры']:
Распечатать(жанр)

В выводе вы должны увидеть название данного фильма, его режиссера (ов) и его жанр (ы):

Поиск человека

Вы можете искать людей, используя поиск_человека() метод. Например, если вы хотите найти «Хит», вам нужно запустить следующий код:

от imdb Импортировать Кинозритель

# Создание экземпляра класса Cinemagoer
ia = Зритель ()

# Поиск людей, в именах которых есть Хит
лица = ia.search_person('Хит')
Распечатать(человек[0])

Вы увидите имя первого подходящего человека, которого найдет поиск:

Поиск компаний

Вы можете искать компании с помощью поисковая_компания() метод. Например, если вы хотите найти «Универсальный», вам нужно запустить следующий код:

от imdb Импортировать Кинозритель

# Создание экземпляра класса Cinemagoer
ia = Зритель ()

# Поиск компаний, в названиях которых есть Universal
компании = ia.search_company('Универсальный')
Распечатать(компании)

Вы получите список всех компаний, в названии которых есть Universal.

Вы также можете получить данные о человеке и компании, используя его идентификатор.

от imdb Импортировать Кинозритель

# Создание экземпляра класса Cinemagoer
ia = Зритель ()

# Получение данных о человеке по ID
человек = ia.get_person('0005132')
печать (человек['имя'])
печать (человек['Дата рождения'])

# Получение данных о компании по ID
компания = ia.get_company('0005073')
печать (компания['имя'])

На выходе будут показаны сведения о человеке и название компании:

Поиск лучших и худших фильмов

Вы можете получить данные для лучших 250 и последних 100 фильмов, используя get_top250_movies() и get_bottom100_movies() методы соответственно:

от imdb Импортировать Кинозритель

# Создание экземпляра класса Cinemagoer
ia = Зритель ()

# Поиск 250 лучших фильмов
топ = ia.get_top250_movies()
Распечатать(вершина[0])

# Поиск последних 100 фильмов
дно = ia.get_bottom100_movies()
Распечатать(нижний[0])

В ответ вы увидите название лучшего фильма и название худшего:

Библиотека Cinemagoer также предоставляет некоторые другие методы, такие как get_top250_tv(), get_popular100_movies(), и get_top250_indian_movies().

Анализ данных — это оценка данных с использованием аналитических или статистических инструментов для извлечения информации. Популярность анализа данных растет с каждым днем. Сейчас он используется предприятиями, маркетинговыми компаниями и спортивными командами. Полный процесс анализа данных включает в себя определение целей, постановку вопросов, сбор данных, очистку данных, анализ данных и подведение итогов.

Вы можете получать наборы данных для своих проектов с помощью библиотек Python, таких как Cinemagoer, или через онлайн-платформы, такие как Kaggle. Наряду с полноценными языками, такими как Python и R, вы можете использовать другие инструменты, такие как Microsoft Excel, Tableau и Stata, для анализа данных.