您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷峰网
  • AI研习社
  • 雷峰网公开课
  • 活动中心
  • GAIR
  • 专题
  • 爱搞机
此为临时链接,仅用于文章预览,将在时失效
人工智能学术 正文
发私信给我在思考中
发送

0

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

本文作者: 我在思考中 2022-08-04 11:11
导语:苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

作者 | 李梅

编辑 | 陈彩娴

如今,每隔一段时间就有新的文本生成图像模型释出,个个效果都很强大,每每惊艳众人,这个领域已经是卷上天了。
不过,像 OpenAI 的 DALL-E 2 或谷歌 的 Imagen 等 AI 系统,都只能生成二维图像,如果文字也能变成三维场景,那带来视觉体验势必加倍提升。
现在,来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
它可以捕捉复杂和逼真的 3D 场景分布,从移动摄像机中进行沉浸式渲染,还能根据文本提示来创建 3D 场景!该模型以 Antoni Gaudi 命名,他是西班牙著名的建筑大师 。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

论文地址:https://arxiv.org/pdf/2207.13751.pdf



1

基于 NeRFs 的 3D 渲染
神经渲染(nerual rendering)将计算机图形学与人工智能结合起来,已经产生了很多从 2D 图像生成 3D 模型的系统。比如最近 Nvidia 开发的 3D MoMa 可以在一个小时内从不到 100 张的照片中创建出 3D 模型。谷歌也依靠神经辐射场(NeRFs )在谷歌地图中将 2D 卫星和街景图像组合成 3D 场景,实现了沉浸式视图。谷歌的 HumanNeRF 还可以从视频中渲染出 3D 人体。
目前,NeRFs 主要还是用作 3D 模型和 3D 场景的一种神经存储介质,可以从不同的相机视角进行渲染。NeRFs 也已经开始被用于虚拟现实体验。
那么,NeRFs 这种从不同摄像机角度逼真地渲染图像的强大能力,能不能用于生成式 AI 呢?当然可以,已经有研究团队尝试了 3D 场景的生成,如谷歌在去年首次推出了 AI 系统 Dream Fields,它将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合,最终实现了能够生成匹配文本描述的 NeRF。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

图注:谷歌 Dream Fields
但是,谷歌的 Dream Fields 只能生成针对单个对象的 3D 视图,要将它扩展到完全不受约束的 3D 场景还存在很多困难。最大的难点就在于摄像机的位置有很大的限制,对于单个对象,每个可能的、合理的摄像机位置都可以映射到一个圆顶,但在 3D 场景中,摄像机的位置会受到对象和墙壁等障碍物的限制。如果在场景生成时不考虑这些因素,那就很难生成 3D 场景。



2

3D 渲染专家 GAUDI
对于上述摄像机位置受限的问题,苹果的 GAUDI 模型拿出了三个专门的网络来轻松搞定:
GAUDI 有一个相机姿态解码器,它将摄像机姿态与场景的 3D 几何和外观分离开来,可以预测摄像机的可能位置,并确保输出是 3D 场景架构的有效位置。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

图注:解码器模型架构
针对场景的场景解码器则可以预测三维平面的表示,这种表示是一种 3D 画布。
然后,辐射场解码器会在这块画布上使用体积渲染方程来绘制后续的图像。
GAUDI 的 3D 生成包含两个阶段:
一是潜在和网络参数的优化:学习对数千条轨迹的 3D 辐射场和相应相机姿态进行编码的潜在表示。与针对单个对象不同,有效相机姿态随着场景的变化而不同,所以需要对每个场景有效的相机姿态进行编码。
二是使用扩散模型在潜在表示上学习生成模型,从而能够在有条件和无条件的推理任务中都能很好地建模。前者是根据文本或图像提示来生成 3D 场景,后者则是根据摄像机轨迹来生成 3D场景。
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
通过 3D 室内场景,GAUDI 可以生成新的摄像机运动。如在下面一些示例中,文本描述包含有关场景和导航路径的信息。这里研究团队采用了预先训练的基于 RoBERTa 的文本编码器,并使用其中间表示来调节扩散模型,生成效果如下:
文本提示:走进厨房
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
文本提示:上楼
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
文本提示:穿过走廊
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
另外,使用预训练的ResNet-18 作为图像编码器,GAUDI 能够对从随机视点观察给定图像的辐射场进行采样,从而从图像提示中创建 3D 场景。
图像提示:
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
生成 3D 场景:
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
图像提示:
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
生成 3D 场景:
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
研究人员在四个不同的数据集(包括室内扫描数据集 ARKitScences)上进行了实验,结果表明, GAUDI 可以重建学习视图,而且可以与现有方法的质量相匹配。即使是在为数千个室内场景制作具有数十万张图像的 3D 场景的庞大任务中,GAUDI 也不会出现模式崩溃或方向问题。
GAUDI 的出现不仅会对许多计算机视觉任务上产生影响,而且其 3D 场景的生成能力也将有利于基于模型的强化学习和规划、SLAM 以及 3D 内容的制作等研究领域。
就目前来看,GAUDI 生成的视频质量还不算高,可以看出有很多伪影。不过,这个系统或许可以为苹果正在进行的渲染 3D 对象和场景的 AI 系统,这是一个好的开始和基础,据说 GAUDI 还将被应用到苹果的 XR 耳机中,用于生成数字化位置。可以期待一下~
参考链接:
https://medium.com/mlearning-ai/how-to-generate-3d-scenes-from-text-descriptions-2345bfb321
https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/
更多内容,点击下方关注:
扫码添加 AI 科技评论 微信号,投稿&进群:
苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!雷峰网(公众号:雷峰网)苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

雷峰网版权文章,未经授权禁止转载。详情见 转载须知。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

1人收藏
分享:
相关文章
  • iPhone16系列开售,盒马X会员店还推出了苹果石榴礼盒 ...
  • iPhone16开售火爆,天猫苹果旗舰店追加补货15次
  • 9月等华为穿戴新品还是买苹果?这些重点你一定要知道 ...
  • 曝德国办公楼周五下班强制拉闸断电,不允许中国企业 ...
我在思考中

运营

发私信
当月热门文章
  • 人形机器人公司 Foundation 融资 1100 万美元;OpenAI 聘请前 Meta 高管领导战略计划丨AI情报局
  • 前 OpenAI 首席科学家 Ilya 获 10 亿美元融资;曝 OpenAI 将筹数百亿美元打造 AI 基础设施丨AI情报局
  • AI 编程公司 Magic 融资 3.2 亿美元,Codeium 融资 1.5 亿美元;1X 发布家务机器人 NEO丨AI情报局
  • 开源公司 Grafana Labs 融资 2.7 亿美元;a16z 发布全球 Top100 AI 应用:字节美图上榜丨AI情报局
  • 阶跃星辰开放平台迎来多项更新,上线 Step-1X 图像生成大模型
最新文章
  • Yoshua Bengio、姚期智、张亚勤:AI安全是“全球公共产品”,全球合作刻不容缓
  • 讲座预约 | AI4S 的前世今生:大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live
  • 讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live
  • 密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR
  • 对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR
  • 新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR
热门搜索
无人机 高通 比特币 DeepMind YouTube 印度 WWDC 中国电信 TechCrunch Disrupt CPU 人机交互
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请 验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以 设置密码以方便用邮箱登录
立即设置 以后再说

玻璃钢生产厂家福建景观玻璃钢雕塑市场玻璃钢雕塑在城市景观中的应用勺嘴鹬玻璃钢雕塑西安人物玻璃钢雕塑哪家便宜中山美陈玻璃钢雕塑台州玻璃钢雕塑优势玻璃钢西游记雕塑商场风车主题美陈玻璃钢花盆服务口碑好南充玻璃钢雕塑摆件施工团队河南景观玻璃钢雕塑价格出售玻璃钢雕塑厂家动漫玻璃钢雕塑施工哪家好内黄玻璃钢雕塑价格梅州主题玻璃钢雕塑质优价廉新乡不锈钢玻璃钢人物雕塑定做广东玻璃钢动物雕塑小猪摆件玻璃钢电影动漫雕塑多少钱舟山玻璃钢花盆组合河北节庆商场美陈研发公司淮安玻璃钢仿铜雕塑价格济源玻璃钢雕塑飞马生产厂品牌玻璃钢卡通雕塑销售九江户外玻璃钢雕塑销售电话做商场美陈要注意哪些地方肇庆校园玻璃钢雕塑陕西高质量玻璃钢雕塑定制江苏园林玻璃钢花盆吉安欧式玻璃钢雕塑联系方式天津省大型玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化