开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP

新闻中心
你的位置:开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP > 新闻中心 > 开yun体育网但这些门径时常代价奋斗且耗时-开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP

开yun体育网但这些门径时常代价奋斗且耗时-开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP

发布日期:2024-12-26 09:53    点击次数:192

制作 VR、电影和工程联想等所需的传神 3D 模子时常是一个繁琐的流程开yun体育网,需要大宗的手动尝试与转化。

尽管生成式 AI 图像模子不错通过文本教唆生成传神的 2D 图像,从而简化艺术创作流程,但这些模子并不适用于生成 3D 样式。为了管制这一问题,磋磨东说念主员最近迷惑出名为“Score Distillation”的时期,哄骗 2D 图像生成模子来创建 3D 样式,但生成的抵制时常暗昧或带有过度的卡通立场。

MIT 的磋磨东说念主员真切探索了生成 2D 图像与 3D 样式的算法之间的关系与各异,找出了 3D 模子质料较低的压根原因。基于此,他们对 Score Distillation 进行了浮浅的矫正,使其大略生成愈加了了、高质料的 3D 样式,这些样式的质料更接近于面前最好的模子生成 2D 图像水平。

(起首:MIT News)

如上图,这些示例展示了两个不同的 3D 旋转物体:一个机器蜜蜂和一颗草莓。磋磨东说念主员通过基于文本的生成式东说念主工智能和他们的新时期生成了这些 3D 物体。

一些其他门径试图通过重新磨练或微调生成式东说念主工智能模子来管制这个问题,但这些门径时常代价奋斗且耗时。

比较之下,MIT 迷惑的时期无需格外磨练或复杂的后处理,就能生成质料非常或优于这些门径的 3D 模子。

此外,通过找到问题的压根原因,磋磨东说念主员擢升了对 Score Distillation 及关系时期的数学表现,为将来进一步擢升性能打下了基础。

“面前咱们知说念了勤快的宗旨,这使咱们大略找到更高效、更快速且质料更高的管制有规画。”该时期关系论文的第一作家、电子工程与打算机科学磋磨生 Artem Lukoianov 说说念,“从永久来看,咱们的磋磨不错匡助将这一流程弯曲为联想师的扶助器用,让创建愈加真正的 3D 样式变得更浮浅。”

Lukoianov 的和解者包括牛津大学磋磨生 Haitz Sáez de Ocáriz Borde、MIT-IBM Watson AI Lab 磋磨科学家 Kristjan Greenewald、丰田磋磨院科学家 Vitor Campagnolo Guizilini、Meta 磋磨科学家 Timur Bagautdinov,以及两位资深作家:MIT 电子工程与打算机科学助理教育、打算机科学与东说念主工智能践诺室(CSAIL)场景暗示小组认真东说念主 Vincent Sitzmann,以及 CSAIL 几何数据处理小组认真东说念主、电子工程与打算机科学副教育 Justin Solomon。该磋磨将在NeurIPS上发表。

从 2D 图像到 3D 样式

扩散模子(如 DALL-E)是一种生成式 AI 模子,不错从赶快噪声中生成传神的图像。为了磨练这些模子,磋磨东说念主员向图像中添加噪声,然后教模子逆向处理以去除噪声。模子哄骗这一学习到的“去噪”流程,笔据用户的文本教唆生成图像。

但是,扩散模子在径直生成真正的 3D 样式时推崇欠安,因为可用于磨练的 3D 数据不及。为了管制这一问题,磋磨东说念主员在 2022 年迷惑了一种名为 Score Distillation Sampling (SDS) 的时期,哄骗预磨练的扩散模子将多个 2D 图像趋奉成 3D 暗示。

该时期从一个赶快的 3D 暗示脱手,先从赶快相机角度渲染出所需物体的 2D 视图,再向该图像添加噪声,然后使用扩散模子去噪,并优化脱手的 3D 暗示,使其更接近去噪后的图像。磋磨东说念主员类似这一流程,直到生陋习画 3D 物体。

但是,通过这种容貌生成的 3D 样式时常显得暗昧或表情过富饶。

“这一瓶颈问题一经存在了一段时分。咱们知说念底层模子自己大略推崇得更好,但东说念主们一直不解白为什么在处理 3D 样式时会出现这种问题。”MIT 磋磨生 Artem Lukoianov 确认说念。

MIT 磋磨东说念主员真切磋磨了 SDS 的每一要害,并发现了一个要害公式与 2D 扩散模子的对应部分存在不匹配。这个公式决定了模子怎样通过一步步添加和去除噪声,更新赶快暗示,使其更接近规绘制像。

由于公式的一部分触及一个复杂的方程,难以高效求解,SDS 用每一步赶快采样的噪声代替了该方程。但 MIT 磋磨东说念主员发现,恰是这种赶快噪声导致了暗昧或卡通化的 3D 样式。

秘要的近似解法

磋磨东说念主员莫得尝试精准求解这一复杂公式,而是测试了多种近似时期,最终找到了最好有规画。他们的门径并非赶快采样噪声项,而是通过现时 3D 样式的渲染抵制测度出缺失的噪声项。

“通过这么作念,正如论文中的分析所筹商的那样,咱们大略生成了了、传神的 3D 样式。”Lukoianov 确认说念。

此外,磋磨东说念主员还提高了图像渲染的阔别率,并转化了一些模子参数,进一步擢升了 3D 样式的质料。

最终,他们哄骗现成的预磨练图像扩散模子,无需腾贵的重新磨练,就能创建平滑且传神的 3D 样式。生成的 3D 物体在了了度上与依赖特定管制有规画的其他门径非常。

“若是仅仅盲目地转化不同参数,巧合灵验,巧合无效,但你不知说念原因地方。而面前,咱们明确了需要管制的方程,这让咱们不错想考更高效的求解容貌。”Lukoianov 说说念。

由于他们的门径依赖于预磨练的扩散模子,这一模子的偏差和不及也被接收了下来,因此可能会出现幻觉怡悦或其他作假。矫正底层扩散模子将进一步擢升这一流程的成果。

除了磋磨怎样更高效地管制这一公式,磋磨东说念主员还但愿探索这些主见怎样矫正图像裁剪时期。

Artem Lukoianov 的磋磨得到了丰田–CSAIL 集结磋磨中心的资助。Vincent Sitzmann 的磋磨赢得了好意思国国度科学基金会、新加坡国防科学与时期局、好意思国内务部以及 IBM 的复古。Justin Solomon 的磋磨部分由好意思国陆军磋磨办公室、国度科学基金会、CSAIL 将来数据样子、MIT–IBM Watson AI 践诺室、纬创集团以及丰田–CSAIL 集结磋磨中心资助。

https://news.mit.edu/2024/creating-realistic-3d-shapes-using-generative-ai-1204