Как извлечь текст из PDF-файлов и изображений в Linux с помощью gImageReader

Если вы студент или ваша работа связана с работой с большим количеством изображений и PDF-файлов, в какой-то момент вы почувствовали необходимость извлечь текст из изображения или документа.

К счастью, извлечение текста делает это возможным. И есть несколько инструментов, которые вы можете использовать для этого. gImageReader — один из многих инструментов. Это бесплатное приложение, которое работает как с файлами изображений, так и с документами PDF.

Давайте подробно рассмотрим gImageReader и посмотрим, как вы можете использовать его для извлечения текста из изображений и PDF-файлов.

Что такое gImageReader?

gImageReader — это приложение, которое позволяет извлекать текст из изображений и PDF-файлов в Linux. По сути, это графический интерфейс или интерфейс для движок Tesseract OCR, ан Открытый исходный код движок, разработанный Hewlett-Packard, который считается одним из лучших доступных движков OCR.

С gImageReader вы можете легко и достаточно точно извлекать текст из изображений или PDF-документов с помощью нескольких простых кликов. Затем вы можете экспортировать извлеченный текст в текстовый файл или файл PDF для дальнейшего использования.

instagram viewer

Особенности gImageReader

gImageReader обладает следующими функциями:

Импорт PDF-документов и изображений из разных источников (диск, сканирующие устройства, буфер обмена и снимок экрана)
Пакетная обработка изображений или документов, т. е. извлечение текста из нескольких изображений или документов одновременно.
Распознавать текстовые фрагменты как обычный текст или документы hOCR
Встроенная проверка орфографии
Автоматическое определение области текста
Базовое редактирование изображений/документов
Сохранить вывод в виде текстового файла

Как установить gImageReader в Linux

gImageReader доступен на большинство основных дистрибутивов Linux. Но прежде чем приступить к его установке, вам необходимо установить в вашей системе механизм распознавания текста Tesseract.

Для этого откройте Программный менеджер в вашей системе и найдите тессеракт. Когда он вернет список результатов, установите tesseract-ocr а также tesseract-ocr-eng пакеты. Вы также можете использовать диспетчеры пакетов командной строки для установки пакета, если вам удобнее работать с терминалом.

После этого ознакомьтесь с инструкциями по установке в следующих разделах, чтобы установить gImageReader на свой компьютер.

Если вы используете Debian или Ubuntu, откройте терминал и выполните следующие команды, чтобы установить gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
Судо подходитполучить Обновить
Судо подходит установить программа для чтения изображений

В Fedora, CentOS или Red Hat Enterprise Linux (RHEL):

судо днф установить gimagereader-qt

На Арх Линукс или Манджаро:

sudo pacman -S gimagereader

Пользователи openSUSE могут установить gImageReader, используя:

судо зиппер установить программа для чтения изображений

Если вы используете любой другой дистрибутив Linux, вы можете собрать gImageReader из исходного кода, следуя инструкциям на странице GitHub gImageReader.

Как использовать gImageReader в Linux

gImageReader довольно прост в использовании и работает со всеми типами файлов изображений, а также с документами PDF. Следуйте приведенным ниже инструкциям, чтобы извлечь текст из изображений или PDF-файлов в Linux.

Откройте меню приложений, найдите gImageReaderи запустите приложение. Ударь Максимизировать кнопку в окне gImageReader, чтобы открыть его в полноэкранном режиме.

Теперь нажмите на Добавить изображения на левой панели под панелью инструментов и используйте файловый браузер, чтобы выбрать изображения или PDF-файлы, из которых вы хотите извлечь текст.

Нажмите Ok для импорта изображений или PDF-файлов в gImageReader. Или, если вы хотите извлечь текст из того, что отображается на экране, щелкните раскрывающийся список рядом с Добавить изображения кнопку и выберите Сделать снимок экрана. gImageReader сделает скриншот содержимого экрана.

Добавив изображение в gImageReader, щелкните значок Переключить панель вывода (одна со значком блокнота), чтобы открыть панель вывода. Здесь появляется текст, который вы извлекаете из изображений или PDF-файлов.

В зависимости от того, как вы хотите действовать, теперь у вас есть возможность идентифицировать текст на изображении или в PDF автоматически или вручную. Чтобы сделать это автоматически, нажмите кнопку Автоопределение макета кнопку, и она выделит все текстовые блоки в выбранном изображении или документе PDF.

После этого нажмите на Распознать выделение > Текущая страница чтобы начать процесс извлечения текста.

В качестве альтернативы, чтобы выделить текст вручную, наведите указатель мыши на текст, который хотите извлечь, и с помощью перекрестия нарисуйте рамку вокруг области, из которой вы хотите извлечь текст. Затем нажмите на Распознать выбор кнопку, чтобы продолжить.

Если это PDF-документ и вы хотите извлечь текст с разных страниц, коснитесь Плюс (+) для перелистывания страниц.

Чтобы вернуться, нажмите Минус (-) кнопка. Затем выберите текст, который хотите извлечь, и нажмите кнопку Распознать выбор кнопку, чтобы извлечь его.

Хотя и редко, но могут быть случаи, когда gImageReader возвращает извлеченный текст на языке, отличном от английского. Когда это произойдет, просто нажмите кнопку раскрывающегося списка рядом с Распознать выбор кнопку и выберите один из вариантов на английском языке.

Наконец, чтобы сохранить извлеченный текст, щелкните значок Сохранить вывод кнопка. Это вызовет окно сохранения. Здесь дайте имя файлу и нажмите Ok.

Что еще вы можете сделать с gImageReader?

Как упоминалось ранее, gImageReader также дает вам возможность изменять определенные аспекты импортированных изображений или документов, такие как их яркость, контрастность и разрешение. Кроме того, при необходимости вы также можете инвертировать цвета или поворачивать изображения или документы.

Большинство этих параметров могут оказаться полезными, когда текст на изображении или в документе не читается gImageReader и, следовательно, не позволяет инструменту распознать текст.

Чтобы получить доступ к любому из этих параметров редактирования, щелкните значок Элементы управления изображением кнопку, и она покажет мини-панель инструментов под основной панелью инструментов. Отсюда выберите соответствующие кнопки, чтобы выполнить желаемую операцию редактирования изображения или документа.

Извлечение текста в Linux стало проще благодаря gImageReader

Для извлечения текста часто требуется правильный инструмент: тот, который использует надежный и точный механизм OCR, который позволяет ему эффективно идентифицировать текст на изображении или документе, поэтому вы можете эффективно извлекать его без каких-либо дополнительных действий. хлопот.

gImageReader отлично справляется с этой задачей благодаря механизму OCR Tesseract, который он использует в фоновом режиме. Учитывая простоту использования, gImageReader, несомненно, является одним из лучших инструментов для извлечения текста, доступных для Linux.

В качестве альтернативы, если вы ищете более простое решение, вы можете проверить TextSnatcher, который является быстрым и довольно простым в использовании.

About Technology - denizatm.com

Как извлечь текст из PDF-файлов и изображений в Linux с помощью gImageReader

Что такое gImageReader?

Особенности gImageReader

Как установить gImageReader в Linux

Как использовать gImageReader в Linux

Что еще вы можете сделать с gImageReader?

Извлечение текста в Linux стало проще благодаря gImageReader

категории

Recent Post

Как исправить слабую безопасность Wi-Fi с помощью этих пяти приемов

Что такое полиморфное вредоносное ПО?

Повлияет ли удаление данных распознавания лиц на безопасность пользователей Facebook?