Видеонаблюдение

Сопоставление 2,5D-сканов лица с 3D-моделями

Производительность систем распознавания лиц, использующих двумерные изображения, зависит от таких факторов, как освещение и поза объекта. Сейчас создается система распознавания лиц, которая использует трехмерную информацию о форме, чтобы сделать систему более устойчивой к произвольной позе и освещению.

Для каждого субъекта создаются 3D-модели лица путем объединения нескольких 2,5D-сканирований лица, полученных с разных ракурсов. 2.5D — это упрощенное трехмерное представление поверхности (x, y, z), которое содержит не более одного значения глубины (направление z) для каждой точки на плоскости (x, y).

Для сопоставления лиц используются и интегрируются два различных метода сканирования лица, а именно форма и текстура. Механизм распознавания состоит из двух компонентов: сопоставления поверхностей и сопоставления на основе внешнего вида.

Проблемная составляющая задачи

Автоматическое распознавание лиц – сложная задача, которая привлекла большое внимание за последнее десятилетие. Хотя большинство усилий было направлено на распознавание лиц по двумерным (2D) изображениям, в нескольких подходах использовалась информация о глубине, предоставляемая изображениями 2,5D диапазона.

Современные системы двухмерного распознавания лиц могут обеспечить хорошую производительность в ограниченных условиях; однако они по-прежнему сталкиваются с трудностями при обработке большого количества вариаций лица из-за положения головы, условий освещения и выражений лица.

Сопоставление 2,5D-сканов лица с 3D-моделями

Поскольку человеческое лицо представляет собой трехмерный (3D) объект, чья 2D-проекция (изображение или внешний вид) чувствительна к вышеупомянутым изменениям, использование трехмерной информации о лице может улучшить эффективность распознавания лиц. Изображения дальности, полученные явным образом с помощью 3D-датчика, содержат информацию о форме поверхности лица.

Трехмерная форма поверхности лица представляет собой структуру, которая связана с внутренними анатомическими особенностями, а не с внешним видом и окружающей средой. Также сложнее подделать 3D-лицо по сравнению с 2D-изображением лица, чтобы обойти систему распознавания лиц.

В этом исследовании 3D-модели используются для распознавания 2,5D-сканов лица, предоставляемых коммерческими 3D-датчиками, такими как серия Minolta Vivid. 2,5D-сканирование — это упрощенное трехмерное представление поверхности (x, y, z), которое содержит не более одного значения глубины (направление z) для каждой точки в плоскости (x, y), связанной с ней с зарегистрированным изображением текстуры.

Сопоставление 2,5D-сканов лица с 3D-моделями

Каждое сканирование может предоставить только одну точку обзора объекта вместо полного трехмерного изображения. В реальных сценариях, подобных нынешним системам захвата 2D-камер, 3D-датчики обеспечивают лишь частичное изображение лица. Однако на этапе обучения трехмерную модель лица можно построить, сделав несколько сканирований с разных точек зрения. Поэтому рассматривается сценарий, который сопоставляет 2,5D-сканирование лица с 3D-моделями.

В настоящее время сопоставление 2,5D-сканов с 3D-моделями имеет ограниченный спектр приложений, таких как контроль доступа с высоким уровнем безопасности, из-за стоимости получения 3D-данных. Но с дальнейшим прогрессом в технологии 3D-изображения ожидается, что экономически эффективный систематический сбор 3D-данных станет легко доступным.

Трехмерная реконструкция структуры лица по изображениям привлекла значительное внимание не только для улучшения визуального качества, но и для повышения метрической точности.

Что предлагается для решения проблемы

Для решения проблемы распознавания лиц на основе изображений дальнего расстояния использовались разные методы, но большинство из них фокусировались только на распознавании лиц спереди. Кроме того, большинство этих методов используют только информацию о форме поверхности. Но компонент внешнего вида или текстуры также играет важную роль в процессе распознавания лиц, особенно когда формы двух лиц в галерее схожи.

Внешний вид лица на 2D-изображениях — это проекция 3D-объекта лица с световыми эффектами, содержащая информацию о текстуре лица. Хотя трехмерная форма не изменится из-за изменений позы и освещения, она все равно может измениться из-за выражения лица и фактора старения.

Использование только трехмерной информации о форме не может полностью справиться со всеми вариациями, с которыми сталкивается система распознавания лиц.

Предлагается комбинированная схема, которая объединяет методы сопоставления поверхностей (формы) и ограниченного внешнего вида для многоракурсного сопоставления лиц (см. рис.) при некоторых изменениях освещения и некоторых вариациях выражения. При сопоставлении поверхностей используется информация о трехмерной форме, а методы, основанные на внешнем виде, исследуют подсказки текстуры.

Сопоставление 2,5D-сканов лица с 3D-моделями

Интеграция формы и текстуры обеспечивает более надежную систему распознавания лиц, позволяющую преодолеть ограничения, возникающие в традиционной системе распознавания лиц на основе 2D-изображений при изменении позы и освещения.

Этап, основанный на внешнем виде, ограничен небольшим списком кандидатов, созданным на этапе сопоставления поверхностей, что снижает сложность классификации. В традиционных алгоритмах, основанных на внешнем виде, все предметы в обучающей базе данных используются для анализа и построения подпространства.

Сопоставление 2,5D-сканов лица с 3D-моделями

Когда количество субъектов велико, это приводит к проблеме из-за большого межклассового сходства. В нашей схеме 3D-модель используется для синтеза обучающих выборок с вариациями внешнего вида лица, которые используются для анализа дискриминантных подпространств. Оценки соответствия, полученные двумя совпадающими компонентами, объединяются для принятия окончательного решения.

Трехмерное моделирование и конструирование

Поскольку каждое 2,5D-сканирование может охватывать только часть полного 3D-изображения лица, 3D-модель лица для каждого объекта создается путем сшивания нескольких 2,5D-сканов, полученных с разных точек обзора, которые охватывают всю область лица. В текущей настройке используются пять сканирований: фронтальное, 30 градусов влево, 60 градусов влево, 30 градусов вправо и 60 градусов вправо. Сначала регистрируются сканы 2.5.

Затем они объединяются, чтобы устранить неоднозначность и создать модель поверхности. Основные процедуры очистки применяются для заполнения дыр, сглаживания поверхности и удаления шумных точек, связанных с волосами и одеждой. Конечным результатом является гладкая полноразмерная сетчатая модель лица с наложенной текстурой для каждого из наших объектов. Все методы, используемые в процедурах построения моделей, хорошо изучены в сообществах исследователей компьютерной графики и зрения.

Сопоставление 2,5D-сканов лица с 3D-моделями

На рисунке показан порядок построения 3D-модели лица. Полученная модель имеет очень высокую плотность и содержит около 27 000 вершин. Ее можно использовать для создания нового реалистичного внешнего вида лица с вариациями позы и освещения.

Сопоставление поверхностей

Для сопоставления двух поверхностей лица (тестовое сканирование 2,5D и 3D-модель), применяется стратегия перехода от грубого к мелкому, показанной на рисунке.

Сопоставление 2,5D-сканов лица с 3D-моделями

Рисунок 5

Извлечение характерных точек и грубое выравнивание

Есть две цели для извлечения характерных точек из 2,5D-сканирований. Во-первых, три помеченные характерные точки используются для расчета жесткого преобразования, которое совместит 2,5D-сканирование с 3D-моделью [29]. Во-вторых, для выравнивания сетки контрольных точек необходимы определенные характерные точки, которые используются на этапе точного выравнивания.

На первом этапе можно использовать любые три помеченные характерные точки, при условии, что каждая точка соответствует одной и той же точке 3D-модели.

Однако на втором этапе необходимы определенные точки (внутренние уголки глаз, внешние уголки глаз и кончик носа) для выравнивания сетки контрольных точек по лицу.

Сопоставление 2,5D-сканов лица с 3D-моделями

Эти конкретные точки можно рассчитать путем обратной проекции с использованием жесткого преобразования, открытого для первой цели. Характерные точки выбираются путем определения локального индекса формы в каждой точке 2,5D-сканирования.

Индекс формы в точке p определяется с использованием максимальной (k1) и минимальной (k2) локальной кривизны (см. (1)). Индекс формы принимает значение в интервале [0, 1].

Сопоставление 2,5D-сканов лица с 3D-моделями

Нижний предел шкалы индекса формы представляет собой сферическую чашку, а верхний предел шкалы представляет собой сферическую крышку. В середине шкалы (значение 0,5) находится седловая точка, см. рис.

Сопоставление 2,5D-сканов лица с 3D-моделями

Этот расчет формы не зависит от системы координат и, следовательно, является потенциально полезной метрикой для поиска похожих точек между 2,5D гранями. сканирует в разных позах. На следующем рисунке показано изображение индекса формы двух сканирований лица.

Сопоставление 2,5D-сканов лица с 3D-моделями

Обратите внимание, что между этими двумя разными сканами одного и того же лица существует несколько совпадений (соответствий).

Например, область между глазами и переносицей имеет постоянно форму корыта.

Используя комбинацию индекса формы, инвариантной к позе, трехмерных координат и изображения текстуры, была разработана эвристика для определения местоположения набора потенциальных характерных точек. Этот набор потенциальных точек предназначен для сопоставления с аналогичными опорными точками, уже указанными в 3D-моделях.

Среди всех сканирований лица, как в анфас, так и в профиль, характерной точкой, которую легко идентифицировать, является внутренний край глаза рядом с переносицей, поскольку эта точка имеет очень близкое значение индекса формы. до нуля, а область вокруг этой точки имеет одинаковое значение индекса формы для всех изображений и поз лица, иллюстрацию см. на рис.

Сопоставление 2,5D-сканов лица с 3D-моделями

Простая эвристика также используется для выбора кандидатов на другие характерные точки, например, кончик носа. «Профиль» используется для описания изменения позы более чем на 45 градусов от фронтальной проекции.

Как только определяется список кандидатов на характерные точки, следующим шагом будет поиск по всем возможным точкам со всеми возможными метками, чтобы найти лучший тройку точек/меток, которая преобразует 2,5D-сканирование в 3D-модель. Лучший триплет «точка/метка» — это набор из трех точек с тремя метками, который обеспечивает наилучшее преобразование 2,5D-скана в 3D-модель.

Перебор всех возможных наборов троек нецелесообразен. Для сокращения области поиска был разработан набор ограничений. Мы сформулировали проблему в виде стандартной проблемы удовлетворения ограничений (CSP) и решили ее, используя алгоритм релаксационной маркировки.

Используемые ограничения основаны на гибкой модели взаимоотношений между точками на лицах людей. Например, расстояние между внутренней и внешней сторонами глаза составляет не менее 20 мм и не более 50 мм; индекс формы кончика носа должен быть больше 0,5 и т. д. Большинство этих ограничений консервативны и предназначены для исключения заведомо неправильного выбора точки/метки.

После определения трех точек рассчитывается преобразование грубого выравнивания. Для жесткой трансформации восстанавливается шесть параметров: три для трехмерного вращения и три для трехмерного перемещения.

Точная настройка

Поскольку и сканирование, и модель содержат очень плотные данные, можно найти хорошее приближение ближайших точек в каждом наборе данных, что является основой структуры Iterative Closest Point (ICP, с англ. итеративная ближайшая точка). Базовая схема итеративной ближайшей точки выглядит следующим образом:

1. Выбор контрольных точек в одном наборе точек.

2. Поиск ближайших точек в другом наборе точек (соответствия).

3. Расчет оптимального преобразования между двумя наборами на основе текущего соответствия.

4. Трансформация точек; повторяем шаг 2, до схождения.

Начиная с первоначальной оценки жесткого преобразования, полученной на этапе грубого выравнивания, ICP итеративно обновляет параметры преобразования, поочередно выбирая соответствующие (контрольные) точки в 3D-модели и 2,5D-сканировании и находя наилучшее перемещение и вращение, которое минимизирует функция ошибок, основанная на расстоянии между ними.

Интегрируются алгоритмы ICP Бесля и Чена в зигзагообразном стиле – ему дали название гибридный алгоритм ICP. Каждая итерация состоит из двух шагов: для вычисления оценки выравнивания используется схема Бесла, а для уточнения следует схема Чена. Гибридный алгоритм может объединить преимущества каждого отдельного компонента с точки зрения надежности и эффективности.

Чтобы увеличить количество соответствий, внутри сканов лица были выбраны области, которые не сильно различаются между сканами. На рис. показаны сетки, используемые для выбора контрольных точек для различных поз.

Сопоставление 2,5D-сканов лица с 3D-моделями

Были выбраны области вокруг глаз и носа, поскольку эти области менее податливы, чем другие части лица (например, область вокруг рта, которая сильно меняется в зависимости от выражения лица). Результаты точного выравнивания показаны на рис. 5г. Также могут применяться другие схемы выбора неравномерной контрольной точки, такие как схемы выборки на основе кривизны.

Расстояние соответствия поверхности

Среднеквадратичное расстояние, минимизированное алгоритмом ICP, используется в качестве основного расстояния сопоставления между сканом лица и 3D-моделью. Используется метрика расстояния между точками и плоскостями MDICP. Чем меньше MDICP, тем лучше соответствие поверхностей.

СООТВЕТСТВИЕ НА ОСНОВЕ ОГРАНИЧЕННОГО ВИДА

Помимо трехмерной формы, текстура, содержащаяся в двухмерном изображении с интенсивностью, также является важным сигналом для распознавания лиц. Существует несколько алгоритмов распознавания лиц по внешнему виду. Типичный метод, основанный на внешнем виде, анализирует корреляцию интенсивностей между всеми пикселями изображения, которая является глобальной характеристикой изображения лица. Совмещение обучающих и тестовых изображений важно для точности сопоставления алгоритмов, основанных на внешнем виде.

Процедура регистрации ICP совмещает тестовый скан и 3D-модель, поэтому поза уже нормализована. Синтезируя новый внешний вид (варианты изображения) из построенной 3D-модели, можно получить дополнительные обучающие выборки испытуемых.

Это позволяет использовать линейный дискриминантный анализ (LDA) для сопоставления по внешнему виду. Вместо использования всех объектов в базе данных LDA применяется только к небольшому списку кандидатов, который генерируется динамически на этапе сопоставления поверхностей для каждого тестового сканирования.

Синтез внешнего вида

Поскольку доступна плотная 3D-модель, можно легко синтезировать новый внешний вид с вариациями освещения. Поскольку выравнивание может быть не идеальным, в нашей структуре также синтезируются небольшие вариации поз.

Синтез вариаций поз осуществляется простым вращением и сдвигом 3D-модели. Освещение моделируется путем добавления виртуального источника света вокруг реконструированной поверхности лица, как показано на рис.

Сопоставление 2,5D-сканов лица с 3D-моделями

Положение источника света контролируется расстоянием R между источником света и началом системы координат модели, а также азимутом и углами подъема. Синтезированные обрезанные изображения используются при дискриминантном подпространственном анализе.

Динамический отбор кандидатов

В обычном LDA все предметы в обучающей базе данных (галерее) используются для построения подпространства. Когда количество субъектов велико, сложность проблемы распознавания увеличивается из-за больших внутриклассовых различий и большого межклассового сходства, что приводит к низкой точности распознавания. Однако если количество объектов в галерее невелико, метод на основе внешнего вида может обеспечить относительно хорошую производительность.

Для каждого отдельного тестового сканирования галерея, используемая для анализа подпространства, и сопоставление генерируется динамически на основе результатов сопоставления поверхностей. Для сопоставления по внешнему виду выбирается лишь небольшое количество субъектов, поэтому число субъектов, подлежащих сопоставлению с тестовым сканированием в LDA, невелико.

Интеграция

Сопоставление поверхностей и сопоставление на основе внешнего вида предоставляют две метрики сопоставления, основанные на разных признаках. Каждый из них можно рассматривать как классификатор. Поскольку они исследуют различные свойства объекта лица, а именно форму и текстуру, комбинация этих двух классификаторов потенциально может превзойти каждый отдельный классификатор, что и видно из таблицы.

СхемаТочность совпадения первого ранга
Соответствие поверхностей86%
Ограниченный LDA77%
Сопоставление поверхностей + ограниченный LDA90%

Оценка схемы сопоставления

Для оценки выбранной схемы сопоставления отдельно изучается извлечение признаков и компонентов сопоставления. Грубое выравнивание выполняется с использованием характерных точек, выбранных вручную. Результаты сопоставления обобщены в таблице и пояснены ниже:

Категория тестового сканированияСоответствие поверхностейОграниченный LDAСопоставление поверхностей + ограниченный LDA
Фронтальный и нейтральный98% (2)86% (14)99% (1)
Профиль и нейтральность96% (7)84% (35)98% (5)
Фронтальный и улыбающийся68% (31)71% (28)77% (23)
Профиль и улыбка76% (45)69% (59)84% (31)

1. Фронтальное сканирование с нейтральным выражением лица.

В этой категории все тестовые сканы фронтальные, с нейтральным выражением лица, которое аналогично выражению лица в 3D-моделях. Точность сопоставления поверхностей при этих тестовых сканированиях достигает 98 процентов. Метод, основанный на ограниченном внешнем виде, также обеспечивает самую высокую точность (86 процентов) среди всех категорий, перечисленных в таблице 3, благодаря хорошим результатам выравнивания и очень небольшому изменению выражения. Комбинация сопоставления поверхностей и сопоставления по внешнему виду дает точность 99 процентов.

2. Сканирование профиля с нейтральным выражением лица.

Хотя компоненты сопоставления поверхностей и сопоставления на основе внешнего вида работают немного хуже, чем во фронтальном случае мы по-прежнему достигаем точности 96 процентов для сопоставления поверхностей и 98 процентов для схемы комбинирования. Более низкая производительность здесь по сравнению с фронтальными случаями связана с меньшим перекрытием между тестовым 2,5D-сканированием и 3D-моделями.

3. Сканирование с улыбкой.

Независимо от вариаций позы меняется выражение лица, что приводит к изменению формы лица, резко снижает точность сопоставления поверхностей. Это происходит главным образом потому, что наше сопоставление поверхностей на основе ICP сосредоточено на извлечении параметров жесткого преобразования, тогда как изменение выражения лица является типичным нежестким преобразованием.

Хотя метод, основанный на внешнем виде, может в некоторой степени обрабатывать изменения выражения лица, его производительность зависит от качества выравнивания (нормализации позы), которое обеспечивается компонентом сопоставления поверхностей и скорости работы вычислительной техники.

Выводы

В представленной системе распознавания лиц, которая сопоставляет 2,5D-сканы лиц с различными вариациями позы и выражения лица с базой данных 3D-моделей нейтральных лиц, используется информация о форме и текстуре, содержащаяся в 3D-моделях.

Предлагается схема комбинирования, которая объединяет сопоставление поверхностей (форм) и ограниченный метод сопоставления граней, основанный на внешнем виде, которые дополняют друг друга. Согласование поверхностей достигается с помощью гибридной схемы ICP. Последующий компонент идентификации на основе внешнего вида ограничивается небольшим списком кандидатов, генерируемым компонентом сопоставления поверхностей, что снижает сложность классификации.

3D-модель используется для синтеза обучающих выборок с вариациями внешнего вида лица, которые используются для дискриминантного подпространственного анализа. Совпадающие расстояния, полученные двумя совпадающими компонентами, объединяются с использованием правила взвешенных сумм для принятия окончательного решения.

Независимо от положения, освещения и выражения лица, с учетом характерных точек вся схема сопоставления полностью автоматическая, включая регистрацию/сопоставление поверхностей, динамический выбор списка кандидатов, 3D-синтез, обрезку образца изображения, LDA и сопоставление на основе внешнего вида.

Это исследование является обнадеживающим первым шагом в разработке системы, способной распознавать лица в произвольном положении. Нежесткая деформация, такая как выражение, является проблемой для нынешней системы. В настоящее время разрабатываются более сложные схемы сопоставления поверхностей для повышения точности и скорости сопоставления поверхностей.