转译:《苹果最新 AI 研究或将彻底革新你的 iPhone》

苹果这个几乎与技术创新划等号的公司,再次站在了 AI 革命的前沿。

这家总部位于加州库比蒂诺的公司最近公布了在人工智能研究领域的重要进展,推出了两篇新论文,分别介绍了用于 3D 头像和高效语言模型推理的新技术。这些创新有望为用户提供更沉浸式的视觉体验,并使复杂的 AI 系统能够在 iPhone 和 iPad 等消费者设备上运行。

在其[第一篇研究论文](网页链接)中,苹果的科学家们提出了一个名为 [HUGS](网页链接)(人类高斯喷溅,Human Gaussian Splats)的技术,用于从单镜头短视频中生成动态的 3D 人像。“我们的方法只需一段短单镜头视频(50-100 帧),就能自动学习分离静态场景和一个完全可动画化的人像,整个过程仅需 30 分钟,” 首席作者 Muhammed Kocabas 表示。

图一
该技术包括训练视频(左上),重建的标准人体头像(右上),重建的场景模型(左下),以及重新布局的动画人体与场景(右下)。 (图片来源:Apple)

HUGS 使用一种高效的渲染技术,即 3D 高斯喷溅,来同时展现人物和背景场景。人物模型以 [SMPL](网页链接)(一种统计学身体形态模型)为基础构建。而 HUGS 通过允许高斯变形,能够捕捉到衣物和发型等细节。

一个创新的[神经形变模块](网页链接) 采用线性混合蒙皮技术(linear blend skinning),使得高斯以逼真的方式动态表现。这种协调的动作避免了在调整人像姿势时产生的视觉失真。Kocabas 指出,HUGS 能够实现对人物新姿势的合成以及对人物和场景的新视角合成。

相较于早期的头像生成方法,HUGS 在训练和渲染速度上高达100倍。研究者们在标准游戏GPU上仅用30分钟进行系统优化,就取得了逼真的效果。在 3D 重建质量方面,HUGS 也超过了如 [Vid2Avatar](网页链接) 和 [NeuMan](网页链接) 等最先进技术。

图二

这项新技术使人们仅需一段包含人物和场景的视频,就能将不同的数字角色或“头像”置入新环境中。这个过程非常迅速,图像每秒更新60次,达到流畅且逼真的效果。(Credit: Apple)

苹果研究团队的这一新 3D 建模成就非常引人注目。实时表现能力及利用实地视频创造头像的技术,很快就可能为虚拟试穿、远程互动及合成媒体领域开辟新天地。想象一下,如果你可以直接在 iPhone 相机上制作如此新颖的 3D 场景,会带来怎样的创新可能性!

## 在 AI 推理中弥合内存差距

在[第二篇论文](网页链接)中,苹果(Apple)的研究团队应对了一个挑战:如何将庞大的大语言模型 (LLMs),比如参数众多的 GPT-4,部署到内存受限的设备上。这些先进的自然语言模型由于参数众多,让在普通消费级硬件上的推理变得耗费资源。

他们提出的系统旨在最大程度减少在推理过程中从闪存到有限的动态随机存取内存 (DRAM) 的数据传输量。“我们的方法是建立一个与闪存行为相协调的推理成本模型,从而在两个关键方面进行优化:一是减少从闪存到内存的数据传输量,二是以更大、更连续的数据块进行读取,”首席研究员 Keivan Alizadeh 详细说明了这一点。

研究中引入了两种主要技术:“窗口化”,即重复利用最近推理过程中的激活数据;以及“行列捆绑”,通过将数据的行和列存储在一起,实现读取更大的数据块。在苹果 M1 Max CPU 上运用这些技术,相比传统的简单数据加载方法,推理速度提高了 4-5 倍;而在 GPU 上,速度提升更是达到了 20-25 倍。

“这项技术突破对于在资源受限的环境中部署先进的大语言模型至关重要,这不仅扩大了这些模型的应用范围,也提高了它们的易用性,”共同作者 Mehrdad Farajtabar 表示。这些优化不久后可能使得复杂的 AI 助手和聊天机器人能够在 iPhone、iPad 和其他移动设备上流畅运行。

## 苹果的战略愿景

这两篇论文凸显了苹果在 AI 研究和应用领域的逐渐增强的领导力。尽管前景充满希望,专家们提醒,苹果在将这些技术整合到消费产品中时必须格外慎重,承担相应的责任。从保护隐私到预防技术滥用,都应全面考虑到[社会影响](网页链接)。

苹果可能会将这些创新技术融入其产品系列,不仅仅是为了提升设备性能,更是为了预见混合 AI 服务的未来需求。苹果允许更复杂的 AI 模型在内存有限的设备上运行,为新一代应用和服务的开发奠定基础,这些应用和服务将以前所未有的方式利用大语言模型(LLMs)的强大功能。

此外,苹果公开发布这些研究成果,对整个 AI 领域做出了贡献,这可能会促进该领域的进一步发展。这一行为反映了苹果对自身作为技术领先者地位的自信,以及不断探索新可能性的承诺。

苹果的最新创新如果得到恰当应用,有可能将人工智能提升至一个新高度。逼真的数字化虚拟形象和强大的 AI 助手原本只存在于遥远的未来设想中 — 但在苹果科学家的努力下,这一未来正迅速成为现实。

来源:网页链接

发布时间: 2023-12-24 11:40:57

热门评论

Fei36496
Fei36496

整合进SIRI更重要,通过SIRI自动买票,订房,订餐、比价、购物

李富豪0109
李富豪0109

能不能先优化Siri

i看see
i看see

小影视作坊福音[馋嘴]

OneAnalytics
OneAnalytics

关键点:边缘化离线训练? 在线训练? 不过这个属实厉害!

KittyHobbit
KittyHobbit

训练视频必须本人亲自拍摄吗 如果随便一段视频都行 那b站的饭制岂不是要疯 给自己爱豆做电影 人人都是大导演[允悲]

Hohobonichi
Hohobonichi

对vision pro未来重大利好!更需要买第一代vision pro,不拆封,留给未来了[二哈]

阿达哥
阿达哥

这两个都有点厉害

棕榈心-
棕榈心-

苹果能不能先把返回键做出来[doge]

琮方珠玉
琮方珠玉

单目3D检测 之前用在自动驾驶的成像上19年就有论文和模型了 小众 但是相对成熟

单目3D检测之前用在自动驾驶的成像上19年就有论文和模型了小众但是相对成熟
今日热门