Когда человек смотрит на сцену или изображение, он понимает это - какие объекты в ней и что происходит, если происходит действие. С другой стороны, компьютер обрабатывает только цифровые данные, которые описывают значение цвета каждого пикселя. Для человека распознать пиццу на загроможденном столе не составляет труда. Но до недавнего времени компьютеры не могли выполнять ту же задачу.
Компьютерное зрение, или CV, позволяет компьютеру выбирать важную информацию из визуальных входов и делать точные прогнозы и рекомендации на основе этой информации.
Как работает компьютерное зрение?
До появления компьютерного зрения, чтобы создать программу, распознающую конкретное изображение, человеку приходилось часами вручную работать с ногами. Во-первых, необходимо сопоставить базу данных похожих изображений.
Затем эти изображения необходимо будет вручную проанализировать, измерить и аннотировать соответствующими данными. что, по мнению исследователя, можно идентифицировать рассматриваемый объект (например, цвет, размеры и форма). Только после этого можно было использовать программное обеспечение для прогнозов.
С другой стороны, компьютерное зрение автоматизирует весь этот процесс с помощью подхода машинного обучения, известного как глубокое обучение. Глубокое обучение использует многослойную нейронную сеть с сотнями потенциальных слоев. В случае изображений это обычно сверточная нейронная сеть (CNN).
Подробное объяснение того, как работают нейронные сети и глубокое обучение, выходит далеко за рамки этой статьи. В основном в нейронную сеть поступают большие объемы данных. Нейронная сеть многократно анализирует данные, пока не сможет сформировать точные прогнозы относительно них.
В случае CNN, используемой для задачи компьютерного зрения, нейронная сеть обрабатывает данные через несколько этапов. Во-первых, он сворачивает изображение на несколько частей (отдельные пиксели или группы пикселей, помеченные заранее).
Затем он делает предположения о том, что находится в разных частях изображения (например, о резких краях или определенных объектах). Он неоднократно проверяет точность этих прогнозов и каждый раз немного изменяет части алгоритма, пока он не станет очень точным.
Компьютеры теперь настолько мощны, что могут анализировать изображение намного быстрее, чем человеческий мозг, особенно после того, как они научились распознавать определенные закономерности. Таким образом, легко увидеть, как алгоритм глубокого обучения может превзойти человеческие возможности.
Какие типы компьютерного зрения?
Компьютерное зрение включает в себя анализ и понимание изображений и вывод соответствующих прогнозов или решений относительно изображений. Для достижения этих целей компьютерное зрение будет использовать различные задачи. Некоторые из них включают:
- Классификация изображений: Тип изображения распознан. Например, лицо, пейзаж или объект. Задачи такого типа можно использовать для быстрой идентификации и классификации изображений. Одно из применений - автоматическое распознавание и блокировка неприемлемого контента в социальных сетях.
- Распознавание объекта: Подобно классификации изображений, распознавание объектов может идентифицировать конкретный объект в сцене - например, пиццу на загроможденном столе.
- Обнаружение края: Распространенное использование компьютерного зрения и, как правило, первый шаг в обнаружении объектов - определение резких краев изображения.
- Идентификация объекта: Это распознавание отдельных примеров объекта или изображения, например идентификация конкретного человека, отпечатков пальцев или транспортного средства.
- Обнаружение объекта: Обнаружение - это идентификация определенной черты на изображении, например сломанной кости на рентгеновском снимке.
- Сегментация объекта: Это идентификация того, какие пиксели изображения принадлежат рассматриваемому объекту.
- Отслеживание объектов: В видеопоследовательности, как только объект был распознан, его можно легко отследить на протяжении всего видео.
- Восстановление изображения: Размытие, шум и другие артефакты изображения можно удалить, точно определив, где объект по сравнению с фоном находится на изображении.
Примеры компьютерного зрения
Искусственный интеллект - это уже используется в нескольких отраслях с ошеломляющим эффектом, что верно и для компьютерного зрения. Вот несколько примеров уже используемых сегодня резюме.
Распознавание лиц
Распознавание лиц - один из основных способов использования компьютерного зрения сегодня. По сравнению с базами данных известных лиц алгоритмы компьютерного зрения могут очень точно идентифицировать отдельных людей.
- Социальные сети анализируют изображения и автоматически маркируют пользователей, для которых есть хороший выбор изображений.
- Ноутбуки, телефоны и устройства безопасности могут идентифицировать людей, которым разрешен доступ.
- Правоохранительные органы используют распознавание лиц в системах видеонаблюдения для выявления подозреваемых.
Медицина
В настоящее время компьютерное зрение используется в здравоохранении для более быстрой и точной диагностики, чем могут поставить эксперты. Многие приложения включают анализ рентгеновских, компьютерных или магнитно-резонансных изображений для определенных состояний, включая неврологические заболевания, опухоли, а также переломы или переломы костей.
Самоходные автомобили
Автономным транспортным средствам необходимо понимать свое окружение безопасно водить машину. Это означает распознавание дорог, полос движения, светофоров, других транспортных средств, пешеходов и т. Д. Все эти задачи используют системы компьютерного зрения в режиме реального времени, чтобы избежать столкновений и безопасно управлять автомобилем.
Компьютерное зрение - это непростая задача
Текущие приложения компьютерного зрения уже начинают менять то, как мы работаем в различных отраслях. От возможности обнаружения неисправного или сломанного оборудования до точной диагностики рака - компьютерное зрение способно улучшать системы и спасать жизни.
Но и здесь есть свои проблемы. Компьютерное зрение все еще далеко от человеческого зрения. У нас есть тысячи лет эволюции, которые позволяют нам распознавать и понимать почти все, что происходит вокруг нас в режиме реального времени. Но мы понятия не имеем, как человеческий мозг выполняет эти задачи.
Глубокое обучение - огромный шаг в правильном направлении, но он по-прежнему требует огромного объема работы. создать систему, которая может выполнять задачу, которую люди могут сделать очень легко, например, идентифицировать машину на Дорога. Это связано с тем, что компьютеры очень эффективно выполняют ограниченные задачи. Разработка компьютера, способного понять всю сложность визуального мира, - это совершенно другая игра.
По мере того, как будут проводиться все больше исследований как приложений ИИ, так и биологии человека, мы, вероятно, увидим взрыв возможных применений компьютерного зрения в ближайшем будущем.
Алгоритмы машинного обучения призваны облегчить жизнь и улучшить системы, но они могут пойти наперекосяк с плохими последствиями.
Читать далее
- Объяснение технологии
- Программирование
- Искусственный интеллект
- Нейронные сети

Джейк Харфилд - писатель-фрилансер из Перта, Австралия. Когда он не пишет, он обычно находится в кустах, фотографируя местную дикую природу. Вы можете посетить его на сайте www.jakeharfield.com
Подписывайтесь на нашу новостную рассылку
Подпишитесь на нашу рассылку, чтобы получать технические советы, обзоры, бесплатные электронные книги и эксклюзивные предложения!
Еще один шаг…!
Пожалуйста, подтвердите свой адрес электронной почты в электронном письме, которое мы вам только что отправили.