База данных фильмов в Интернете (IMDb) — крупнейшая онлайн-база данных, содержащая информацию о фильмах, телесериалах, домашнем видео, видеоиграх и потоковом контенте. Онлайн-база данных содержит миллионы точных записей, которые можно использовать для анализа данных.
Cinemagoer (ранее известный как IMDbPY) — это библиотека Python для управления и извлечения данных из базы данных фильмов IMDb. Вы можете получить доступ к данным о фильмах, людях и компаниях, которые в дальнейшем можно использовать для анализа.
Установка необходимых библиотек
Вам необходимо установить кинозритель Библиотека Python для доступа к IMDb база данных. Выполните следующую команду в командной строке, чтобы установить библиотеку:
точка установить кинозритель
Вы должны иметь pip установлен в вашей системе для установки внешних библиотек Python.
Код, используемый в этом проекте, доступен в Репозиторий GitHub и вы можете использовать его бесплатно по лицензии MIT.
Извлечение данных IMDb с помощью Python
Вам необходимо импортировать библиотеку cinemagoer, прежде чем использовать ее в своем коде.
от imdb Импортировать Кинозритель
ia = Зритель ()
Приведенный выше код импортирует библиотеку кинотеатра и создает экземпляр класса кинотеатра.
Поиск фильмов
Вы можете искать фильмы с заданным (или похожим) названием, используя search_movie() метод. Например, если вы хотите найти фильмы с названием «рок», вам нужно запустить следующий код:
от imdb Импортировать Кинозритель
# Создание экземпляра класса Cinemagoer
ia = Зритель ()
# Поиск фильмов, в названии которых есть рок
фильмы = ia.search_movie('камень')
Распечатать(кино[0])
Это должно распечатать первый фильм, который он найдет, например:
Вы можете получить фильм по его IMDb ID. Затем вы можете извлечь дополнительную информацию, такую как имена режиссеров и жанры. Вам нужно цикл по списку получить индивидуальную информацию.
от imdb Импортировать Кинозритель
# Создание экземпляра класса Cinemagoer
ia = Зритель ()# Получение фильма по IMDb ID
фильм = ia.get_movie('0468569')
Распечатать(фильм)# Печать имен режиссеров фильма
Распечатать('Режиссеры:')для режиссера в кино['директора']:
печать (режиссёр['имя'])# печать жанров фильма
Распечатать('Жанры:')
для жанра в кино['жанры']:
Распечатать(жанр)
В выводе вы должны увидеть название данного фильма, его режиссера (ов) и его жанр (ы):
Поиск человека
Вы можете искать людей, используя поиск_человека() метод. Например, если вы хотите найти «Хит», вам нужно запустить следующий код:
от imdb Импортировать Кинозритель
# Создание экземпляра класса Cinemagoer
ia = Зритель ()
# Поиск людей, в именах которых есть Хит
лица = ia.search_person('Хит')
Распечатать(человек[0])
Вы увидите имя первого подходящего человека, которого найдет поиск:
Поиск компаний
Вы можете искать компании с помощью поисковая_компания() метод. Например, если вы хотите найти «Универсальный», вам нужно запустить следующий код:
от imdb Импортировать Кинозритель
# Создание экземпляра класса Cinemagoer
ia = Зритель ()
# Поиск компаний, в названиях которых есть Universal
компании = ia.search_company('Универсальный')
Распечатать(компании)
Вы получите список всех компаний, в названии которых есть Universal.
Вы также можете получить данные о человеке и компании, используя его идентификатор.
от imdb Импортировать Кинозритель
# Создание экземпляра класса Cinemagoer
ia = Зритель ()# Получение данных о человеке по ID
человек = ia.get_person('0005132')
печать (человек['имя'])
печать (человек['Дата рождения'])
# Получение данных о компании по ID
компания = ia.get_company('0005073')
печать (компания['имя'])
На выходе будут показаны сведения о человеке и название компании:
Поиск лучших и худших фильмов
Вы можете получить данные для лучших 250 и последних 100 фильмов, используя get_top250_movies() и get_bottom100_movies() методы соответственно:
от imdb Импортировать Кинозритель
# Создание экземпляра класса Cinemagoer
ia = Зритель ()# Поиск 250 лучших фильмов
топ = ia.get_top250_movies()
Распечатать(вершина[0])
# Поиск последних 100 фильмов
дно = ia.get_bottom100_movies()
Распечатать(нижний[0])
В ответ вы увидите название лучшего фильма и название худшего:
Библиотека Cinemagoer также предоставляет некоторые другие методы, такие как get_top250_tv(), get_popular100_movies(), и get_top250_indian_movies().
Анализ данных — это оценка данных с использованием аналитических или статистических инструментов для извлечения информации. Популярность анализа данных растет с каждым днем. Сейчас он используется предприятиями, маркетинговыми компаниями и спортивными командами. Полный процесс анализа данных включает в себя определение целей, постановку вопросов, сбор данных, очистку данных, анализ данных и подведение итогов.
Вы можете получать наборы данных для своих проектов с помощью библиотек Python, таких как Cinemagoer, или через онлайн-платформы, такие как Kaggle. Наряду с полноценными языками, такими как Python и R, вы можете использовать другие инструменты, такие как Microsoft Excel, Tableau и Stata, для анализа данных.