Предположим, у вас есть идея научить бездушный ноутбук узнавать вашего кота. Или наводить смартфон на игроков чемпионата по баскетболу, чтобы приложение подсказывало вам их имена, годы рождения, процент попаданий и годовую зарплату. Всё это — это поводы углубиться в изучение машинного зрения.
Краткий ликбез
Компьютерное (машинное) зрение — это набор технологий, методов и алгоритмов, целью которых является «научить бездушный компьютер обозревать окружающую действительность с некоторой долей оразумения».
Сегодня процесс машинного зрения реализуется через «фильтрацию» изображений на необходимый ряд признаков и обработку результатов этой фильтрации. Поэтому, прежде чем начинать разговор об излюбленных нейросетях и машинном обучении, важно понять, что основа компьютерного зрения — это именно обработка изображений. Таким образом, единственный способ позволить компьютеру «увидеть» нашу реальность — дать ему ряд нужных признаков и попросить найти их на изображении.
К примеру, есть задача научить ваш MacBook узнавать кота в видеочате в скайпе. Для начала нужно «рассказать» машине об основных признаках кота. Затем — показывать фото котов: белых, серых, маленьких, больших, размытых, четких, в светлой комнате, темной. Чем больше разных котов увидит машина, тем лучше она адаптируется и с большей вероятностью начнёт узнавать кота в разных условиях. Такая методика называется глубинным обучением, оно же и является основной сложностью сегодня, потому что исследователь всегда остаётся ограничен базой изображений.
Затем можно отправиться в полевые условия и начать видеочат с котом. Компьютер захватывает сцену реального мира из видеопотока, сканирует её на наличие признаков кота, и, найдя их, сигнализирует об этом.
Исследователи пытаются найти совершенно иные подходы к компьютерному зрению, однако анализ изображения и машинное обучение — пока единственный способ «увидеть» нас для компьютера.
С чего начать обучение?
ВАРИАНТ 1: Онлайн-курсы. Платные и бесплатные
-
Четырёхмесячный курс о классической теории компьютерного зрения. Визуальная система человека и работа с изображением: обработка, освещение, движение, классификация и распознавание; -
Computer Vision, Center For Research in Computer Vision (бесплатно).
Курс из 20 лекций по 45-90 минут. Академично и глубоко рассматриваются фундаментальные матрицы изображений, оптический поток, масштабно-инвариантное преобразование признаков, различные алгоритмы и методы работы с изображением; -
Введение в компьютерное зрение, Лекториум (бесплатно).
В курсе рассматривают как базовые понятия компьютерного зрения, так и ряд современных алгоритмов, позволяющих решать практические задачи. Отдельно отмечают связь методов компьютерного зрения с обработкой зрительной информации в мозгу человека; -
Deep Learning in Computer Vision, Coursera (бесплатно).
Этот пятый курс из семи в специализации «Машинное обучение». Речь пойдет о распознавании изображений и видео, включая классификацию, поиск изображений, методы обнаружения объектов, отслеживание объектов в видео, распознавание человеческих действий и, наконец, редактирование и создание новых изображений; -
Computer Vision Courses, Udemy (платно, от 10$).
Ряд платных курсов, среди которых можно найти и изучить основы машинного обучения, наиболее известнын готовые библиотеки и технологии для работы с CV.
Часть онлайн-курсов посвящена работе с OpenCV — одной из популярных библиотек с открытым кодом, которая предоставляет набор типов данных и алгоритмов для обработки изображений:
- Open CV tutorials, Lynda
- OpenCV Courses, Class Central
- OpenCV Courses, Udemy (от 10$)
- Learn OpenCV, School of AI
- OpenCV Computer Vision Application Programming, Open CV
ВАРИАНТ 2: Читать книги
Хотя компьютерное зрение — область, которую невозможно объять без реального программирования, подковаться теоретически тоже будет полезно. Для этого стоит обратить внимание на следущие издания:
- Richard Szeliski, Computer Vision: Algorithms and Applications;
- Simon J. D. Prince, Computer Vision: Models, Learning, and Inference;
- Hairong Qi, Wesley E. Snyder Fundamentals of Computer Vision.
ВАРИАНТ 3: Работа
Можно старым «дедовским способом» найти работу с подходящим проектом, и узнавать, учиться и экспериментировать непосредственно в процессе.
Будущее компьютерного зрения
Исследователи прогнозируют использование компьютерного зрения в будущем практически во всех областях жизни человека: робототехника, биометрика, медицина, индустрия развлечений. По прогнозам Microsoft, к 2027 году появятся решения, способные не просто записывать изображение окружающего мира, а действительно «видеть» его, помогать в работе и в повседневной жизни людям самых разных сфер деятельности.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.