自然可控的人场互动生成在各个领域中起着重要作用,例如VR/AR内容创建和以人为中心的人工智能。但是,现有方法在可控性方面不自然、不直观,这严重限制了它们在实践中的应用。因此,我们专注于从文本描述中自然可控地生成逼真多样的人场互动,这是一个具有挑战性的任务。从人类的认知角度,理想的生成模型应正确推理空间关系和交互动作。为此,我们提出了Narrator,一种基于关系推理的新型生成方法,使用条件变分自编码器进行自然可控的生成,给定一个3D场景和一个文本描述。此外,我们分别基于场景图形建模3D场景和文本描述中的全局和局部空间关系,并引入一个部分级别的动作机制,以表示交互作为原子身体部位状态。特别是,受益于我们的关系推理,我们进一步提出了一种简单而有效的多人生成策略,这是对可控的多人场景交互生成的第一次探索。我们的广泛实验和感知研究表明,Narrator可以可控地生成多样的交互,并且显著优于现有的作品。该代码和数据集将可用于研究目的。
论文链接:http://arxiv.org/pdf/2303.09410v1
更多计算机论文:http://cspaper.cn/