NVIDIA(英伟达)宣布推出一种名为Latte3D的文本转3D生成AI模型。模型能够将简短的文字描述转换为物体和动物的精确三维模型,实现了一种近似于虚拟3D打印的效果。
该公司表示,生成的3D形状采用了流行的标准渲染应用程序格式制作,这使得它们可以轻松地在虚拟环境中应用。这一技术有望广泛应用于视频游戏开发、广告设计、工程项目以及机器人虚拟训练场景中。鉴于这一发展趋势,未来很可能会出现可靠的文本到3D打印文件转换工具。
NVIDIA人工智能研究副总裁Sanja Fidler表示:“一年前,人工智能模型需要一个小时才能生成这种质量的3D视觉效果,而Latte3D仅需要10到12秒。我们现在可以更快地产生结果,使各行业的创作者能够实现近乎实时的文本到3D生成。”
NVIDIA研究人员在其演示中使用了单个RTX A6000 GPU时几乎可以立即生成3D形状。
创建者可以使用LATTE3D几乎立即生成详细的对象,而不是从头开始设计或梳理3D资源库。
该模型可根据每个文本提示生成一些不同的三维形状选项。所选对象可在几分钟内优化为更高质量。然后,用户可以将形状导出到图形软件应用程序或英伟达Omniverse等平台中,从而实现基于通用场景描述(OpenUSD)的三维工作流程和应用。
尽管LATTE3D是在动物和日常物体数据集上进行训练的,但开发人员可以借助相同的模型架构在其它类型的数据上进行训练。
例如,如果在3D植物数据集上进行训练,LATTE3D的一个版本就能帮助景观设计师在与客户进行头脑风暴时,快速用树木、花丛和多肉植物填充花园效果图。如果对家居物品进行训练,该模型就能生成物品,填充到三维模拟家居中,开发人员可以用它来训练个人助理机器人,然后再在现实世界中进行测试和部署。
LATTE3D使用英伟达A100 Tensor Core GPU进行训练。除了三维形状外,该模型还在使用ChatGPT生成的各种文本提示上进行了训练,以提高模型处理用户描述特定三维物体时可能提出的各种短语的能力。例如,当提示描述与犬科动物相关时,都应该生成狗一样的形状。
来源:南极熊
Copyright © 2014-2024 武汉灵猴科技有限公司 版权所有 Powered by RRZCMS 备案号:鄂ICP备14009219号-4