Рекламное объявление
Вытягивание текста из изображений никогда не было проще, чем сегодня, благодаря технологии оптического распознавания символов (OCR).
OCR позволяет нам делать все виды полезных вещей, таких как поиск изображений с помощью текстовых запросов, воспроизведение документов без их ручного ввода и даже преобразование рукописного текста в цифровой текст Как конвертировать изображение с почерком в текст с помощью OCRНужно оцифровать рукописные заметки для редактирования или сохранить их на потом? Вот лучшие инструменты OCR для преобразования рукописного текста в текстовый. Подробнее .
Но что такое оптическое распознавание символов? Как это на самом деле работает? Вам может показаться, что это чёрная магия, но к концу этой статьи вы получите полное представление о том, как компьютеры могут распознавать буквы и слова.
Как работает оптическое распознавание символов
Чтобы понять, как текст извлекается из изображения, мы сначала должны понять, что такое изображения и как они хранятся на компьютерах.
пиксель это одна точка определенного цвета. образ по сути, это коллекция пикселей. Чем больше пикселей на изображении, тем выше его разрешение. Компьютер не знает, что изображение указателя действительно является указателем - он просто знает, что первый пиксель - это цвет, следующий пиксель - это цвет, и отображает все его пиксели, чтобы вы могли их видеть.
Это означает, что текст и нетекст ничем не отличаются от компьютера, и поэтому оптическое распознавание символов так сложно. Имея это в виду, вот как это работает.
Шаг 1: Предварительная обработка изображения
Прежде чем текст можно будет извлечь, изображение необходимо массировать определенным образом, чтобы облегчить извлечение и повысить вероятность успеха. Это называется предварительной обработкой, и разные программные решения используют разные комбинации методов.
Более распространенные методы предварительной обработки включают в себя:
бинаризации
Каждый пиксель изображения преобразуется в черный или белый. Цель состоит в том, чтобы выяснить, какие пиксели принадлежат тексту, а какие - фону, что ускоряет фактический процесс распознавания.
Deskew
Поскольку документы редко сканируются с идеальным выравниванием, символы могут оказаться наклонными или даже перевернутыми. Цель здесь - определить горизонтальные строки текста, а затем повернуть изображение так, чтобы эти строки были на самом деле горизонтальными.
Despeckle
Независимо от того, было ли изображение преобразовано в двоичную форму, может быть шум, который может помешать идентификации символов. Despeckling избавляется от этого шума и пытается сгладить изображение.
Удаление линии
Определяет все строки и пометки, которые, вероятно, не являются символами, а затем удаляет их, чтобы фактический процесс распознавания не запутался. Это особенно важно при сканировании документов с помощью таблиц и ящиков.
зонирование
Разделяет изображение на отдельные фрагменты текста, например, идентифицируя столбцы в документах с несколькими столбцами.
Шаг 2: Обработка изображения
Перво-наперво, процесс OCR пытается установить базовую линию для каждой строки текста на изображении (или, если он был зонирован при предварительной обработке, он будет работать через каждую зону по одному). Каждая идентифицированная строка символов обрабатывается один за другим.
Для каждой строки символов программное обеспечение OCR определяет интервал между символами путем поиска вертикальных линий нетекстовых пикселей (что должно быть очевидно при правильной бинаризации). Каждый кусок пикселей между этими нетекстовыми строками помечается как «токен», который представляет один символ. Следовательно, этот шаг называется лексический анализ.
После того, как все потенциальные символы в изображении маркированы, программное обеспечение OCR может использовать два различных метода, чтобы определить, какими символами на самом деле являются эти токены:
Распознавание образов
Каждый токен сравнивается от пикселя к пикселю со всем набором известных глифов, включая цифры, знаки препинания и другие специальные символы, и выбирается наиболее близкое совпадение. Этот метод также известен как сопоставление матриц.
Здесь есть несколько недостатков. Во-первых, токены и глифы должны быть одинакового размера, иначе ни один из них не будет совпадать. Во-вторых, токены должны быть похожи на шрифт как глифы, что исключает почерк. Но если шрифт токена известен, распознавание образов может быть быстрым и точным.
Функция извлечения
Каждый токен сравнивается с различными правилами, которые описывают, какой это может быть характер. Например, две вертикальные линии равной высоты, соединенные одной горизонтальной линией, скорее всего, будут заглавными буквами H.
Этот метод полезен, потому что он не ограничен определенными шрифтами или размерами. Это также может быть более нюансировано при распознавании тонких различий между прописной буквой I, строчной буквой L и цифрой 1. Обратная сторона? Программирование правил намного сложнее, чем простое сравнение пикселей в токене с пикселями в глифе.
Шаг 3: Постобработка изображения
Как только все сопоставление токенов завершено, программное обеспечение OCR может просто позвонить в день и представить вам результаты. Но обычно нужно сделать немного больше, чтобы убедиться, что вы не закатываете глаза на бессмысленные результаты.
Лексическое ограничение
Все слова сравниваются с лексиконом утвержденных слов, а любые слова, которые не соответствуют, заменяются на наиболее подходящие слова. Словарь является одним из примеров лексикона. Это может помочь исправить слова с ошибочными символами, такими как «шип» вместо «th0rn».
Оптимизация для конкретного приложения
Когда OCR используется в нишевых настройках, таких как медицинские или юридические документы, может использоваться специальный вид OCR, специально разработанный для этой настройки. В этих случаях программное обеспечение OCR может искать математические уравнения, отраслевые термины и т. Д.
Естественный язык
Этот продвинутый метод исправляет предложения, используя языковую модель, которая описывает, как часто за определенными словами следует другие слова. Это похоже на технологию, которая предсказывает, какое слово вы хотите набрать на мобильной клавиатуре.
Если все сделано хорошо, это может привести к тексту, который будет замечательно читаемым.
Рекомендуемые инструменты оптического распознавания символов
Теперь, когда вы знаете, как работает OCR, должно быть легко увидеть, что не все инструменты OCR сделаны равными. Точность ваших результатов будет сильно зависеть от того, насколько хорошо программное обеспечение реализует различные методы распознавания, обсуждаемые в этой статье.
Мы настоятельно рекомендуем OneNote для этого, что является лишь одной из причин почему он бьет Evernote для заметок Evernote vs. OneNote: какое приложение для заметок подходит именно вам?Evernote и OneNote - замечательные приложения для создания заметок. Трудно выбирать между двумя. Мы сравнили все, от интерфейса до организации заметок, чтобы помочь вам выбрать. Что работает лучше для вас? Подробнее . Если вы готовы платить за премиум-решение, рассмотрите OmniPage. Смотрите наш сравнение OneNote и OmniPage для распознавания текста Свободный против Платное программное обеспечение для распознавания текста: сравнение Microsoft OneNote и Nuance OmniPageСканер OCR позволяет конвертировать текст в изображениях или PDF-файлах в редактируемые текстовые документы. Достаточно ли хорош бесплатный инструмент OCR, например OneNote? Давайте узнаем! Подробнее . Для мобильных документов, вы хотите проверить эти Приложения OCR для устройств Android 6 лучших приложений для Android OCR для извлечения текста из изображенийВам нужно оцифровать какой-либо печатный текст, чтобы вы могли сохранить его мягкую копию? Если это так, все, что вам нужно, это инструмент оптического распознавания символов (OCR). Подробнее .
Как вы используете OCR? Есть какие-нибудь любимые инструменты OCR, о которых мы не упоминали? Дайте нам знать в комментариях ниже!
Джоэл Ли имеет степень бакалавра в области компьютерных наук и более шести лет профессионального опыта написания. Он главный редактор MakeUseOf.