AI 的深入发展推动人机交互领域的技术不断革新,“数字人”市场快速升温。随着用户对人机交互智能化提出了更高的要求,加之计算机视觉和自然语言处理等技术的迭代升级和互相融合,多模态人机交互成为新的发展趋势。
中科深智聚焦动作和表情的实时生成引擎研发,打造了数字人多模态实时驱动引擎 Motionverse,赋能各类元宇宙和数字人业务发展。中科深智将 Motionverse 引入 NVIDIA Omniverse 平台,借助 Omniverse 平台的开源模块化架构,加速功能开发,为 Motionverse 创建了更多落地场景。
多模态数字人实时驱动开发:细节成为“拦路虎”
当前多模态技术仍存在语义鸿沟、异构鸿沟、数据缺失三大难点,后续开发仍需持续突破技术难点。多模态数字人开发覆盖文字、语音、视觉的理解和生成,动作识别和驱动,环境感知等多方面,对视觉、语音、自然语言处理等提出了更高的算法和技术需求。
Motionverse 引擎在最初的设定中,包括了面部、上半身、声音、DM 等多种方式,但在实际开发过程中也会遇到很多细节问题。因此,如何在引擎中实现技术融合、推动实现更为高效的多模态人机交互需要更为全面的底层技术支持。
Omniverse 模组化设计赋能数字人开发
NVIDIA Omniverse 是可实现 3D 设计协作和真实模拟的可扩展式多 GPU 虚拟世界平台。中科深智依靠 Omniverse 平台的模组化设计,借助 Omniverse 底层技术支持 AI 生成动作表情后的驱动,使驱动过程更为高效、清晰。
中科深智与 NVIDIA 开展深度合作,将其多模态数字人表情和动作生成及实时驱动平台——Motionverse 接入 3D 模拟和协作平台 NVIDIA Omniverse,同时结合 NVIDIA 多个 SDK 提供的强大 AI 能力(如 Avatar Cloud Engine 和 Maxine 等),为全球设计师和开发者提供完整的数字人全套即插即用的解决方案。
NVIDIA Omniverse Avatar Cloud Engine(ACE)是基于云的 AI 模型和服务的集合,建立在 NVIDIA 统一计算框架(UCF)之上,其丰富的软件工具和 API 可供开发者轻松构建、自定义和部署生动的交互式虚拟形象。
NVIDIA Maxine 是 Omniverse ACE 的一部分,是一套由 GPU 加速的 AI 软件开发套件(SDK)和云原生微服务,用于部署经过优化和加速的 AI 功能。Maxine 云原生微服务允许开发者构建实时 AI 应用。微服务还可以独立管理,开发者可以在云端进行无缝部署,缩短开发周期。
Omniverse 助力 Motionverse 加速落地场景构建
Motionverse 借助 Omniverse 平台,可助力 Omniverse 用户以更简便、更精准的方式驱动数字人,实现高效率、低成本、大批量、全自动的多模态动作数据解析、生成、影像渲染及内容输出,让数字人的动作和表情变得生动、灵活、真实。
中科深智借助 Omniverse 平台加速引擎功能开发,更加高效地上线了面部驱动、上半身驱动和声音驱动等功能,同时还将借助 Omniverse 平台的 3D 设计协作及可扩展的多 GPU 实时逼真仿真,针对当前互动效果进行持续更新,着力扩展更多的驱动模态。
同时中科深智还加入了 NVIDIA 初创加速计划,其联合创始人兼 CTO 宋健表示,“作为 NVIDIA 初创加速计划会员,我们获得了市场、技术等多方面的支持。我们还获邀参与了 2022 NVIDIA 初创企业展示活动,并进入了最终展示。通过与 NVIDIA 的深度合作,中科深智将公司的多模态数字人表情和动作生成及实时驱动平台——Motionverse 接入设计师协同设计平台 NVIDIA Omniverse,同时结合 NVIDIA 多个 SDK 提供的强大 AI 能力,包括 Maxine 以及 ACE 数字人为全球设计师和开发者提供完整的数字人全套即插即用的解决方案。”
*与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。