Распознавание лиц – одна из возможностей технологии, связанной с использованием нейросетей (алгоритмов), которые обучены находить, распознавать и отличать изображения. Методика является практической реализацией теории распознавания образов, одна из задач которой – автоматическая локализация лица на фотографии и, при необходимости, идентификация персоны по фотоснимку. Если мозг человека узнает другого индивидуума по характерным признакам – глазам, скулам, носу, текстуре и цвету кожи, то информационная система распознавания работает по несколько иным принципам. Интерес к техническим средствам на основе нейросетей связан с возрастающими в них потребностями в таких областях, как охранные системы, верификация, криминалистическая экспертиза, телеконференции и т. д. Предлагаемый обзор системы распознавания лиц посвящен вопросам, связанным с принципами работы этой технологии, областью ее применения, перспективами развития.
Общие принципы работы
Система распознавания должна, в первую очередь, отыскать лицо на изображении и выделить этот участок снимка. Эта задача решается с помощью специальных алгоритмов, когда устанавливается степень схожести, например, цвета кожи или пропорций головы. Среди существующих методик распознавания наиболее эффективным считается метод Виолы-Джонса, который можно применять в режиме реального времени. С его помощью можно идентифицировать личность, даже если опознаваемый повернул лицо на 30 градусов по отношению к камере. В основе метода – так называемые признаки Хаара: это – набор черно-белых прямоугольных масок, которые накладываются на разные части фотоснимка. Система суммирует значения яркости всех пикселей фото, которые оказались под черной и белой частями маски, и подсчитывает разность этих значений. Полученные результаты сравниваются с накопленными данными.
Как это используется на практике
Устройство распознавания лиц находит широкое применение в самых разных сферах. Например, в Москве только на подъездах многоэтажных домов установлено больше 100 тысяч камер, поддерживающих эту технологию. Еще около 25 тысяч таких устройств установлены во дворах, продолжает увеличиваться их число на площадях, остановках общественного транспорта, в других местах большого скопления людей. Системы распознавания помогают разыскивать преступников, осуществлять допуск на объекты, выявлять прогульщиков и решать множество других задач. Технические средства, оснащенные такой технологией, работают в одном из режимов:
- верификация, когда устанавливается соответствие документа и его владельца. Процедура широко используется при прохождении пограничного контроля. Человек предоставляет документ, подтверждающий его личность, а система устанавливает степень схожести изображения на фотографии в удостоверении с лицом проверяемого;
- идентификация, или сопоставление внешности человека с данными, имеющимися в базе.
Выявление злоумышленников. Камеры видеонаблюдения с функцией распознавания лиц помогают сотрудникам правоохранительных органов устанавливать нарушителей порядка во время проведения массовых мероприятий, таких, например, как чемпионаты мира по футболу. Установленные на территориях школ и детских садов, в парках, подземных переходах и других местах, требующих особых мер безопасности, такие системы служат дополнительным инструментом в борьбе с преступностью.
Контроль доступа. Организация контроля доступа – одна из самых легких задач для технологии распознавания. Устройства видеонаблюдения в этом случае интегрированы в систему безопасности, и их функции заключаются в управлении контроллерами на турникетах. Человек, который проходит на объект, заинтересован в том, чтобы его узнали, поэтому смотрит в камеру прямо, снимает очки, головной убор, т. е. старается быть максимально похожим на свое изображение в базе данных. Как следствие – эффективность системы распознавания при таком использовании близка к 100 %.
Противодействие кражам. Проблема борьбы с хищениями в гипермаркетах и крупных торговых центрах продолжает оставаться актуальной, и один из способов ее решения – использование технологии распознавания лиц. Обычные системы видеонаблюдения фиксируют уже состоявшийся факт кражи, чтобы затем использовать видеозапись в качестве доказательства совершения воровства. Оборудование с распознаванием лиц позволяет выявлять потенциального злоумышленника еще на входе в магазин.
Организация фейс-контроля. Многие заведения имеют список нежелательных посетителей, например, отличившихся ранее непристойным поведением. С помощью системы видеонаблюдения с распознаванием лиц службе безопасности гораздо проще исключить повторные визиты таких клиентов.
Маркетинговые исследования. Одна из наиболее важных маркетинговых задач – получение сведений о посетителях компании или торговой точки. Такие данные могут использоваться для самых разных целей, например, для выяснения конъюнктуры рынка, уточнения возраста и пола основной массы покупателей, оценки эффективности рекламы и т. д. Установленное в ресторанах, кинотеатрах, магазинах, ночных клубах видеонаблюдение с распознаванием лиц успешно справляется с этой бизнес-задачей.
Как происходит идентификация
Фотография – это, по сути, четырехугольная картинка с множеством линий и пятен. Нейросеть сначала выбирает из этого массива информации лицо человека, а затем сравнивает полученный набор элементов на одном фото с такой же выборкой на другом снимке. В так называемых «сверточных» нейросетях для упрощения картинки некоторые линии и пятна объединяются. Сам принцип работы технологии основан на том, что система обучается распознаванию сама, методом исключения неверных результатов. После каждой попытки нейросеть перенастраивается и продолжает поиск, пока не будет найден искомый вариант. Такую методику называют «обратным распространением ошибок». Можно распознавать лица и 3D-сканером, но для объектов с большим потоком людей (например, для метро) этот способ не подходит. Существующие сегодня нейронные сети позволяют идентифицировать человека по фото или видео с достаточно большой степенью точности.
Тренировка нейросети. Это, по сути, – процесс обучения алгоритму на больших базах «правильных ответов». Допуская ошибки, система сама выявляет закономерности, чтобы уже с новым пакетом данных сделать правильный выбор. Так, чтобы научиться распознавать лица, нейросеть использует базу идентифицированных людей, например, фотографии пользователей соцсетей. Обучение по методике Triplet Loss заключается в том, что системе предлагаются два снимка, и нужно определить, совпадают ли они. Если полученный ответ оказывает неверным, работа над алгоритмом продолжается, пока процент совпадений не достигнет требуемого значения.
Распознавание по признакам. Чтобы глубже понять, как нейросеть успевает за секунду сравнить один снимок с множеством других, нужно уяснить, что система не выполняет сравнения в общепринятом понимании этого слова. Фотографии не накладываются друг на друга для выявления совпадений. Из пятен, составляющих снимок, выделяется лицо, и полученному объекту присваивается некий набор цифр. Нейросеть, как правило, предлагает ряд из 128 чисел, описывающих лицо конкретного человека. Такие числа скрывают под собой так называемые признаки, которые можно отыскать на портрете. Ряды признаков называют еще feature map – картами, по которым можно нарисовать контуры лица, соединяя имеющиеся точки. Нейросеть сама определяет, какие из признаков являются наиболее важными, и именно по ним сравнивает изображение с эталоном.
Как работают алгоритмы. Какие из признаков выбраны системой в качестве наиболее важных, часто неизвестно даже самим программистам. После множества попыток, выполненных в процессе обучения, система сама находит наиболее эффективный путь сравнения пятен на фото. Полученный в результате алгоритм у каждой нейросети уникален, и этот продукт является собственностью компании-разработчика. При этом фичами могут оказаться любые признаки: как длина носа или родинка на лбу, так и цвет отдельного пятна или яркость пикселя в конкретной точке снимка.
Особенности использования технологии распознавания лиц в системах видеонаблюдения
По способу структурной реализации технологии распознавания лиц в системах видеонаблюдения можно выделить три наиболее распространенные схемы, когда анализ видеопотока происходит:
- на сервере. Это наиболее популярная схема, которая предусматривает подачу видеопотока с IP-камеры на сервер, где с помощью специального ПО происходят анализ поступающей информации и сравнение полученных изображений с имеющимися в базе данных эталонами. Главный плюс такого способа – возможность интегрировать технологию распознавания в уже существующую систему видеонаблюдения. Минус – высокая нагрузка на сеть;
- на IP-камере. В этом случае анализ картинки происходит на видеокамере, а на сервер отправляются уже обработанные метаданные. Такая схема позволяет использовать неограниченное количество камер соответствующего типа;
- на устройстве контроля доступа, когда видеокамера встроена непосредственно в устройство, выполняющее как функцию распознавания, так и управление доступом через турникет или электрозамок.
Компоненты системы и форматы идентификации
Успех реализации любого проекта, связанного с распознаванием лиц, в общем случае зависит от выбранного алгоритма и его быстродействия, а также от имеющейся базы данных фотографий (принимаемых за эталоны). Сама система должна включать, как минимум, камеру видеонаблюдения и программное обеспечение, которое будет выполнять анализ поступающих изображений. Используемое в таких случаях ПО требует более мощных серверов, чем при стандартном видеонаблюдении.
2D-распознавание. В основе данной методики лежат плоские двухмерные изображения. Рабочие алгоритмы при этом используют антропометрию и эластичные 2D-модели лиц, а также математические представления изображений. Это наиболее популярная на сегодня технология, т. к. в большинстве баз данных хранятся фотографии именно в таком формате. Основная часть видеокамер, установленных на самых разных объектах по всему миру, также выполняет двухмерную съемку. Поступательное развитие технологии и внедрение новых разработок привели к созданию программ, способных преобразовывать 2D- в 3D-изображения.
3D-распознавание. Трехмерное воссоздание лиц дает более точное представление о представляющих их персонах, но 100 %-ной гарантии точного распознавания тоже не дает. В качестве технических средств реализации такой технологии используются лазерные сканеры с функцией оценки дальности до объекта, со структурированной подсветкой и математической обработкой изгибов полос. Это могут быть также сканеры, способные обрабатывать синхронные стереопары изображений фотограмметрическим методом. Один из наиболее известных 3D-продуктов этой категории – Face ID от компании Apple. Для работы этой технологии используются проектор точек (когда на лицо опознаваемого проецируется около 30 тысяч точек, воссоздающих индивидуальную карту очертаний внешности), инфракрасная камера (которая считывает информацию о точечной структуре) и инфракрасный излучатель. Приложение Face ID, установленное на смартфоне, позволяет, например, разблокировать устройство или совершать покупки в Интернете.
Эффективные методики распознавания
Современные технические средства позволяют выполнять распознавание личности:
- по текстуре кожи лица. Детальный анализ кожи стал возможным благодаря способности новых устройств фото- и видеофиксации создавать изображения с высоким разрешением. При выполнении такого анализа локализуется определенный участок лица, который затем разбивается на более мелкие фрагменты. Полученные блоки представляют собой математически измеримые пространства с описанием линий, пор и фактической текстуры кожи. Эта технология позволяет находить различия между близнецами, что недоступно другим методикам;
- по тепловизионному изображению, полученному с помощью видеокамеры соответствующего типа. Подобная технология считается одной из наиболее перспективных. Она дает возможность нивелировать некоторые недостатки 2D-распознавания, такие, например, как невозможность работы в полной темноте или при плохой освещенности, а также непреодолимость препятствий в виде макияжа, очков, головных уборов, длинных причесок, париков.
Насколько точными бывают результаты распознавания
Современные системы распознавания лиц не гарантируют 100 %-ной точности идентификации. Они не выдают результат в виде: «да» или «нет». Каждая из них предоставляет определенный процент схожести опознаваемого с эталоном. Пользователь имеет возможность в настройках самостоятельно устанавливать порог точности результата в виде соотношения утверждений: «скорее он, чем нет» к «скорее все же не он». Если речь идет о контроле допуска, то, меняя порог в сторону снижения вероятности пропуска нарушителя, мы одновременно увеличиваем вероятность отказа в пропуске своему сотруднику. В зависимости от критичности ошибочных результатов принимается решение о целесообразности использования системы на том или ином объекте. Ошибки распознавания бывают двух типов.
FAR (False Acceptance Rate). Это ошибка первого рода. Она определяет вероятность разрешения доступа на охраняемую территорию злоумышленнику. Такое случается, когда в базе данных была выбрана фотография человека, имеющего внешнюю схожесть с нарушителем пропускного режима.
FRR (False Rejection Rate). Ошибка второго рода приводит к тому, что на объект не может пройти человек, ошибочно принятый за нарушителя. Система устроена таким образом, что, чем выше вероятность FAR, тем ниже – FRR и наоборот.