Вычислительная структура упрощает синтезированные движения человеческих персонажей в трехмерных средах
Системы искусственного интеллекта (ИИ) становятся все более совершенными в синтезе изображений и видео, показывающих людей, животных и объекты. Автоматизированная генерация видео, в которых человеческие персонажи занимаются определенными видами деятельности, может иметь различные ценные приложения, например, упрощая создание анимационных фильмов, контента для виртуальной реальности (VR) и видеоигр.
Исследователи из Пекинского университета, BIGAI и Пекинского университета почты и телекоммуникаций разработали новую вычислительную структуру для генерации реалистичных движений человеческих персонажей, перемещающихся в трёхмерных средах.
Эта структура, представленная в докладе , представленном на конференции SIGGRAPH Asia 2024 , опирается на модель диффузии авторегрессии для синтеза последовательных сегментов движения персонажа и планировщика, который прогнозирует переходы к следующему набору движений.
«Наше вдохновение для этого исследования возникло из наблюдения за тем, как легко и интуитивно люди взаимодействуют с окружающей средой», — рассказал изданию Tech Xplore соавтор статьи Нань Цзян.
«Независимо от того, тянем ли мы руку к чашке кофе на столе или обходим мебель, наши движения совершаются плавно, без сознательного планирования. Эта естественная динамика побудила нас к амбициозной попытке революционизировать взаимодействие виртуальных персонажей с окружающей средой».
Было обнаружено, что многие модели на базе ИИ для генерации человеческих движений генерируют правдоподобные движения взаимодействия объектов для виртуальных гуманоидных персонажей. Однако для хорошей работы эти модели часто требуют сложных и определяемых пользователем входных данных, таких как предопределенные точки маршрута и переходы между этапами.
«Эта зависимость от определяемых пользователем входных данных не только усложняет пользовательский опыт , но и затрудняет автоматизацию и плавность генерации движений», — сказал Зимо Хе, соавтор статьи.
«Осознавая эти ограничения, нашей главной целью было разработать всеобъемлющую структуру, которая упростит этот процесс. Мы стремились создать систему, способную автономно генерировать естественные, многоступенчатые и учитывающие обстановку движения человека, используя только простые текстовые инструкции и обозначенные целевые местоположения».
Исследователи намеревались повысить согласованность и реалистичность движений, генерируемых моделью, а также минимизировать необходимость сложных пользовательских вводов. Чтобы добиться этого, они также составили набор данных LINGO, новую обширную коллекцию данных захвата движения с языковыми аннотациями, которые можно использовать для обучения моделей машинного обучения.
«Наша структура разработана для преобразования простых текстовых инструкций и целевого местоположения в реалистичные многоступенчатые движения человека в трёхмерной среде», — сказал Исинь Чжу, соавтор статьи. «В своей основе система объединяет несколько инновационных компонентов, которые работают гармонично для достижения этой трансформации».
Первый компонент фреймворка команды — это модель авторегрессионной диффузии, которая генерирует последовательные сегменты человеческого движения. Этот процесс отражает процесс, посредством которого люди корректируют свои движения в реальном времени, обеспечивая плавный переход от одного движения к другому.
«Основываясь на нашей предыдущей работе с TRUMANS , где для представления сцены использовалась воксельная сетка, теперь мы перешли к двухвоксельному кодировщику сцены», — сказал Цзян.
«Это усовершенствование обеспечивает системе всестороннее понимание окружающей среды, фиксируя как текущее непосредственное окружение, так и прогнозируя будущие пространства на основе местоположения цели».
Двойной подход, лежащий в основе фреймворка команды, в конечном итоге позволяет персонажам плавно перемещаться в 3D-средах, взаимодействуя с объектами и избегая близлежащих препятствий. Примечательно, что фреймворк также включает в себя встроенный в фрейм текстовый компонент.
«Этот кодер объединяет текстовую инструкцию с временной информацией, то есть он не только понимает, какие действия выполнять, но и когда их выполнять», — сказал Зимо. «Эта интеграция гарантирует, что сгенерированные движения точно соответствуют предполагаемым действиям, описанным в тексте, подобно тому, как люди естественным образом выстраивают последовательность своих действий с идеальным временем».
По сути, кодировщик целей обрабатывает целевое местоположение персонажа и любые подцели, которые он должен выполнить по пути, разделяя их на отдельные этапы взаимодействия. Этот шаг направляет движения персонажа, направляя его к достижению желаемых целей.
«Дополняет это наш автономный планировщик, который выполняет функцию «дирижера движения»», — сказал Хунцзе Ли, соавтор статьи.
«Он разумно определяет оптимальные точки перехода между различными этапами действия, такими как переход от ходьбы к дотягиванию или взаимодействию. Это гарантирует, что вся последовательность движений будет протекать плавно и естественно, без резких или неестественных переходов».
Новая структура, разработанная Цзяном и его коллегами, имеет ряд преимуществ по сравнению с другими моделями для генерации движения персонажа, представленными в прошлом. В частности, она упрощает информацию, которую пользователи должны передавать движению для генерации последовательных движений, ограничивая её базовыми текстовыми инструкциями и целевым местоположением, которого должен достичь персонаж.
«Объединяя осведомлённость о сцене и временную семантику, наша система создаёт движения, которые соответствуют контексту и визуально убедительны», — сказал Сыюань Хуан, соавтор статьи.
«Более того, унифицированный конвейер умело обрабатывает сложные последовательности действий, поддерживая непрерывность и сводя к минимуму непреднамеренные коллизии в разнообразных и загроможденных средах».
В первоначальных тестах, проведенных исследователями, их фреймворк показал себя замечательно, генерируя высококачественные и последовательные движения персонажей с ограниченным пользовательским вводом. Было обнаружено, что сгенерированные движения соответствуют как текстовым инструкциям, предоставленным пользователями, так и контексту окружающей среды, в котором перемещались виртуальные персонажи.
«Это соответствие было количественно подтверждено с помощью различных метрик, где наш подход продемонстрировал превосходную точность и значительно сократил случаи проникновения в сцену по сравнению с существующими методами, такими как TRUMANS», — сказал Цзян. «Эти достижения подчеркивают эффективность нашей структуры в создании движений, которые не только визуально убедительны, но и контекстуально и пространственно точны».
Ещё одним важным вкладом этого недавнего исследования является введение набора данных LINGO, который может быть использован для обучения других алгоритмов. Этот набор данных содержит более 16 часов последовательностей движений, охватывающих 120 уникальных сцен в помещении и демонстрирующих 40 различных типов взаимодействия персонажей со сценами.
«Набор данных LINGO служит надёжной основой для обучения и оценки моделей синтеза движения, сокращая разрыв между естественным языком и данными о движении», — сказал Зимо.
«LINGO предоставляет подробные описания языка вместе с данными о движении, способствуя более глубокому пониманию взаимодействия между человеческим языком, движением и взаимодействием с окружающей средой, тем самым поддерживая и вдохновляя будущие исследования в этой области».
По сравнению с движениями персонажей, созданными ранее представленными моделями, движения, созданные фреймворком команды, оказались более плавными и естественными. Это во многом обусловлено его базовыми компонентами синтеза движений.
«Благодаря бесшовной интеграции локомоции, прикосновений рук и взаимодействий человека с объектом в единый связный конвейер наша модель достигает уровня согласованности и текучести в последовательностях движений, который превосходит фрагментированные, специфичные для сцены подходы», — сказал Ли. «Эта интеграция не только оптимизирует процесс генерации движений, но и повышает общую реалистичность и правдоподобность взаимодействий виртуальных персонажей в их окружении».
Новая структура, представленная Цзяном, Зимо и их коллегами, может иметь различные приложения в реальном мире. Во-первых, она может упростить и поддержать генерацию иммерсивного контента для просмотра с использованием технологий VR и AR.
«В сфере виртуальной реальности (VR) и дополненной реальности (AR) наша структура может значительно повысить реализм и погружение виртуальных персонажей, тем самым улучшая пользовательский опыт», — сказал Ли. «Игровая и анимационная индустрии получат огромную выгоду от нашей системы, поскольку она может автоматизировать генерацию разнообразных и реалистичных анимаций персонажей, сокращая требуемые ручные усилия и увеличивая разнообразие внутриигровых действий».
Исследователи также могут использовать фреймворк для создания персонализированных демонстрационных видеороликов, которые направляют пользователей по выполнению упражнений спортивной и реабилитационной терапии. Это видеоролики, которые имитируют движения, которые необходимо выполнять пользователям, позволяя им выполнять упражнения самостоятельно, без присутствия инструктора-человека.
«В робототехнике и взаимодействии человека с компьютером предоставление роботам возможности выполнять движения, подобные человеческим, и бесперебойное взаимодействие в общих средах может значительно улучшить совместные задачи и эффективность», — сказал Чжу. «Кроме того, нашу структуру можно использовать в симуляциях для сопровождаемого проживания и обучения, разрабатывая реалистичные симуляции для учебных целей, таких как обучение реагированию на чрезвычайные ситуации или развитие навыков в различных профессиональных областях».
В будущем структура и набор данных, представленные Цзяном и его коллегами, могут способствовать дальнейшему развитию моделей на основе ИИ для генерации движения. Между тем, исследователи работают над дальнейшим совершенствованием своего подхода, например, путём улучшения физической точности генерируемых им движений.
«Хотя наша текущая модель отлично справляется с созданием визуально реалистичных движений, мы стремимся включить больше нюансов физических свойств, таких как гравитация, трение и равновесие», — сказал Цзян. «Это усовершенствование гарантирует, что движения будут не только правдоподобными внешне, но и физически правдоподобными, тем самым повышая их надежность и применимость в реальных сценариях».
В своих следующих исследованиях Цзян и их коллеги также попытаются повысить детализацию движений, генерируемых моделью. В настоящее время их модель концентрируется на движениях тела персонажей, но в конечном итоге они хотели бы, чтобы она также захватывала более тонкие детали, такие как жесты рук и выражения лица.
«Объединяя эти элементы, мы надеемся достичь ещё более высокого уровня реализма и выразительности виртуальных персонажей, сделав их взаимодействие более человечным и увлекательным», — сказал Зимо.
Дополнительным аспектом модели, который команда надеется улучшить, является её способность обобщать более широкий диапазон взаимодействий персонажа и сцены. Кроме того, они хотели бы, чтобы модель синтезировала движения в реальном времени.
«Возможность мгновенно генерировать движения в ответ на динамические входные данные была бы особенно полезна для интерактивных приложений, таких как живые VR-опыты и адаптивные игровые среды», — сказал Цзы Ван. «Достижение возможностей в реальном времени значительно расширило бы практическое использование нашей структуры, сделав её более адаптируемой к реальным интерактивным требованиям».
В своих следующих исследованиях учёные также планируют интегрировать в свою структуру мультимодальные входы . Это позволит пользователям взаимодействовать с виртуальными персонажами более увлекательными способами.
«Включая дополнительные модальности ввода, такие как речь и жесты, мы стремимся создать более полный и интуитивно понятный интерфейс для синтеза движения», — сказал Исинь Чэнь. «Этот многомодальный подход позволит пользователям взаимодействовать с виртуальными персонажами более естественным и бесшовным образом, улучшая общий пользовательский опыт».
Конечной целью Цзяна, Зимо и их коллег будет обеспечение того, чтобы их модель была как масштабируемой, так и энергоэффективной, особенно по мере увеличения сложности взаимодействий, которые она генерирует. Это могло бы облегчить её реальное развёртывание, гарантируя, что её производительность и эффективность будут хорошими даже при решении сложных вычислительных задач.
«Благодаря этим исследовательским начинаниям мы стремимся расширить границы автономного синтеза движений человека, делая его все более эффективным и универсальным в различных отраслях и приложениях», — добавил Чжу. «Мы взволнованы будущим потенциалом нашей работы и с нетерпением ждём возможности внести дальнейший вклад в это динамичное направление».
Автор Владислав Кулач
Контакты, администрация и авторы