Motion Capture CV
Краткое описание
Захват движений тела — важный этап в создании анимаций для кино и телевидения. Это также эффективный способ взаимодействия человека с компьютером. Однако до сих пор создание трёхмерных моделей движений (захват движений) требовало дорогостоящего оборудования, такого как камеры высокого разрешения и датчики позиционирования.
В этой статье описывается алгоритм захвата движений на основе визуальных изображений, который был разработан с использованием передовых исследований в области машинного обучения и компьютерного зрения. Алгоритм позволяет создавать трёхмерные модели движений и форм человеческого тела на основе видео- и фотоматериалов. Он может значительно снизить стоимость применения технологии захвата движений.
Исследовательский фон и значение
Технология захвата движений включает в себя такие междисциплинарные области, как инерциальная навигация, биомеханика человека, компьютерная графика и другие. В последние годы, благодаря развитию сенсорных технологий, инновациям в инерциальной навигации и постоянному улучшению аппаратного обеспечения, технология захвата движений достигла значительных успехов как в Китае, так и за рубежом. Тем не менее, она всё ещё ограничена высокой стоимостью оборудования, что затрудняет её широкое применение.
С развитием статистических методов обучения в последние годы появились новые подходы к оценке позы, основанные на нейронных сетях. Эти методы не только уменьшают объём необходимой информации, но и повышают точность оценки позы. Аналогичный подход можно применить и к захвату движений. Таким образом, на основе передовых исследований в области компьютерного зрения и машинного обучения был разработан алгоритм захвата движений, основанный на визуальных изображениях. Этот алгоритм может значительно снизить затраты на применение технологии захвата движений и способствовать её использованию в таких областях, как интернет вещей, взаимодействие человека с компьютером, создание анимаций и других.
Цели проектирования
Алгоритм принимает изображение RGB в качестве входных данных. Модель up используется для определения положения объекта на изображении, после чего объект центрируется и кадрируется до стандартного размера 512x512 для ввода в основную вычислительную модель. В качестве цели для создания трёхмерной модели выбрана SMPL-модель. Она представляет собой вершинную модель кожи, которая точно воспроизводит различные формы человеческого тела в естественных позах, демонстрируя точные характеристики динамики мягких тканей, избегая нереалистичных деформаций в суставах, и позволяя точно определять позу и форму тела с помощью небольшого количества параметров. Благодаря этим характеристикам, SMPL стала целевой моделью для многих исследований по созданию трёхмерных моделей человеческого тела за последние два года.
Теоретическая архитектура
Подобно некоторым недавним работам, в этой модели используется функция потерь для управления смешанной CNN-архитектурой. Конкретно говоря, из изображения CNN предсказывает параметры SMPL-модели человеческого тела: глобальная поза определяется относительными углами между частями тела (body parts), а локальная форма контролируется параметрами сетки поверхности (Beta).
Используя заданные значения позы и параметров поверхности, можно создать плотную сетку, а затем выполнить глобальное вращение на теле, чтобы переместить его в нужное положение. Задача модели состоит в том, чтобы реконструировать процесс рендеринга и предсказать параметры SMPL-модели (Theta и Beta). Этот «обратный» процесс осуществляется путём оптимизации функции потерь через ограничения: полученная трёхмерная модель повторно проецируется на изображение для оценки ошибки в двумерном пространстве.
Модель разделена на две части: первая непосредственно предсказывает параметры SMPL-модели, которые передаются в библиотеку SMPL для генерации трёхмерной сетки. Вторая часть повторно проецирует трёхмерную сетку суставов на результаты двумерной оценки позы (результаты двумерной оценки позы рассматриваются здесь как достоверные данные), измеряя ошибку между трёхмерной проекцией и двумерной оценкой позы. Таким образом, эта модель включает в себя полный трёхмерный контроль (реализованный с помощью небольшого объёма трёхмерных данных) и слабый двумерный контроль. Ей не требуется тщательная инициализация, как в предыдущих исследованиях по созданию SMPL-моделей, и она не требует большого объёма данных для трёхмерного контроля.
Помимо достижения основной цели, необходимо минимизировать вычислительные затраты на оптимизацию. Основываясь на работе Mohamed Omran и др., в этой модели некоторые вычисления, связанные с сеткой SMPL, интегрированы непосредственно в CNN, образуя дифференцируемую форму передачи, устраняя необходимость в нескольких сетевых головках для обратного распространения ошибок 2D и 3D. Это позволяет независимо оптимизировать многие компоненты сети, уменьшая количество гиперпараметров. Также, следуя архитектуре Mohamed Omran и др., мы используем семантическую сегментацию в качестве промежуточного представления данных, поскольку она предоставляет более богатую информацию по сравнению с ключевыми точками или контурами. Поскольку первая часть модели разделена на два этапа: на первом этапе изображение RGB создаёт семантическую сегментацию, на втором этапе используется результат сегментации для прогнозирования низкоразмерных параметров сетки тела (то есть параметров SMPL).
Анализ производительности
Для оценки влияния семантической сегментации на точность модели в этом исследовании используются предварительно обученные модели для создания трёх различных семантических сегментов: RefineNet и две версии DeepLab (основанные на VGG-16 и ResNet-101). Эти сети достигают показателей IoU 67,1, 57,0 и 53,2 соответственно на проверочном наборе UP, что указывает на их качество. Затем каждая из этих трёх сетей используется для обучения трёх моделей для прогнозирования 3D, после чего оценивается точность этих моделей. Результаты представлены в таблице. Как и ожидалось, чем лучше сегментация, тем выше точность прогнозирования 3D.
* Сравнение различных комбинаций контрольных функций потерь
Поскольку модель использует как трёхмерный контроль на общедоступных наборах данных, так и двумерный контроль через повторную проекцию для расчёта ошибок, возникает вопрос о взаимосвязи между этими двумя функциями потерь и их способности уменьшить потребность в маркированных данных. Для ответа на этот вопрос проводится количественный анализ.
Комбинируя три контрольные функции потерь (базовый контроль, трёхмерный контроль и двумерный контроль), создаются различные комбинации, и эти комбинации используются для обучения модели. Затем оцениваются ошибки трёхмерных положений суставов (Err_joints3D
) и ошибки вращения частей тела (Err_quat
) для каждой комбинации. Результаты приведены в таблице ниже. Можно видеть, что смешанные потери способствуют повышению точности. Только при использовании двумерного контроля для обучения возникают значительные ошибки, указывая на необходимость некоторого объёма трёхмерных помеченных данных для преодоления двусмысленности ключевых точек.
На проверочном наборе общедоступных наборов данных по действиям модель была применена для вывода. Некоторые результаты показаны ниже.
Инновационные аспекты и применение
Инновационно, эта модель использует результаты двумерной оценки позы в качестве ограничения для нейронной сети, прогнозирующей изображение RGB на параметры SMPL человеческого тела. Трёхмерная модель тела повторно проецируется в ключевые точки для вычисления ошибки, обеспечивая самоконтролируемое обучение. Сочетание полного трёхмерного и слабого двумерного контроля устраняет необходимость в большом объёме обучающих данных. Использование семантической сегментации повышает точность модели. Оптимизированная сетевая архитектура также способствует лучшей сходимости и обобщающей способности модели.
Применительно к реальным визуальным данным, модель захвата действий, основанная на реальных визуальных данных, имеет широкий спектр потенциальных применений — от использования в системах безопасности и мониторинга пациентов до снижения стоимости и повышения доступности человеко-машинного взаимодействия. Она также окажет влияние на развитие компьютерной графики и игровой индустрии. Захват действий персонажей в настоящее время требует кропотливой работы аниматоров или использования дорогостоящего профессионального оборудования для достижения требуемой точности. Эта модель будет способствовать снижению затрат на производство и освобождению творческих ресурсов в области анимации.
Список литературы [1] Chu X, Ouyang W, Li H et al. Structured Feature Learning for Pose Estimation[J]. 2016. [2] Lassner C, Romero J, Kiefel M et al. Unite the People: Closing the Loop Between 3D and 2D Human Representations[J]. 2017. [3] Loper M, Mahmood N, Romero J et al. SMPL: a skinned multi-person linear model[J]. ACM Transactions on Graphics (TOG), 2015, 34. [4] J.K.V.Tan,I.Budvytis,andR.Cipolla. Indirectdeep structured learning for 3d human body shape and pose prediction. In BMVC, volume 3, page 6, 2017. [5] A.Kanazawa,M.J.Black,D.W.Jacobs,andJ.Malik. End-to-end recovery of human shape and pose. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018. [6] G. Pavlakos, L. Zhu, X. Zhou, and K. Daniilidis. Learning to estimate 3D human pose and shape from a single color image. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018. [7] Ranjan R, Patel VM, Chellappa R. HyperFace: A Deep Multi-task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017:1-1. [8] Bogo F, Kanazawa A, Lassner C et al. Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image[J]. 2016.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )