谷歌推出 Gemini，加速追赶..._宝玉xp的视频-我爱看围脖

谷歌推出 Gemini，加速追赶 OpenAI 的步伐

备受期待的 AI 模型终于面世。

Alphabet Inc. 下属的谷歌，虽然开发出了推动当前人工智能热潮的关键技术，但其产品在市场上的受欢迎程度尚未达到理想。为了扭转局面，谷歌发布了它迄今为止打造的“规模最大、功能最强大的 AI 模型”——Gemini。

自 OpenAI 去年成功推出其对话式聊天机器人 ChatGPT 以来，越来越多的公司开始研究生成式 AI 技术。这种技术能够根据用户需求自动完成编程、总结报告或制定营销策略等任务。在产品发布前的演示中，谷歌特别强调 Gemini 的灵活性，它拥有多种版本，包括一种能直接在智能手机上运行的版本，这一特点使其与众不同。

Gemini AI 模型将推出三个版本：Gemini Ultra、Gemini Pro 和 Gemini Nano。谷歌 DeepMind 的产品副总裁 Eli Collins 表示，Gemini 的多样化设计使其能够在各种设备上运行，从手机到大型数据中心均适用。

“我们长期以来一直希望打造一代新型 AI 模型，灵感来源于人类理解世界和与世界互动的方式，” Collins 在与记者的电话会上表示。“我们希望这种 AI 更像是一个有用的协作者，而不仅仅是一个智能软件。Gemini 正是朝着这个方向迈出的一大步。”

在正式推出这款模型之前，谷歌对 Gemini 进行了一系列标准行业测试。结果显示，在八项测试中有六项中 Gemini Pro 的表现超越了 OpenAI 的 GPT-3.5。谷歌还指出，与 OpenAI 最新的通用模型 GPT-4 相比，Gemini 在七项一般语言理解、推理、数学和编程测试中表现更佳。此外，谷歌估计其最新的生成式 AI 产品 AlphaCode 2 在竞争性编程领域的表现超过了 85% 的同类产品。谷歌即将发布一份技术报告，对 Gemini 的模型架构、训练过程及评估方法进行更详细的阐释。

从这个星期三开始，致力于为智能手机和平板电脑打造应用的 Android 开发者们将有机会注册谷歌的 AI 模型“Gemini”的“纳米”版，这个版本可以直接在这些设备上运行。谷歌还宣布，他们已经在自家的旗舰手机 Pixel 8 Pro 上启用了 Gemini，带来一些创新的生成式 AI 功能，比如能够自动总结录音电话中的要点。谷歌接下来还计划在下周通过其 Vertex AI 和 AI Studio 平台，向云端服务的客户提供更高级的 Gemini Pro 版本。

而对于规模更大的 Gemini Ultra 版本，谷歌首先将其提供给开发者和企业公司，作为早期访问计划的一部分，具体详情将在下周发布。这个版本预计明年初会向更广泛的公众开放。

此外，Gemini 还将能与谷歌众多应用和服务无缝集成，通过 Bard —— 一个与 OpenAI 的 ChatGPT 竞争的对话式聊天机器人。之前，Bard 是基于谷歌的 PaLM 2 模型，这是一种在今年五月的开发者大会上宣布的大型语言模型。

在过去的一年里，面对能生成内容的人工智能程序的兴起，谷歌一直在努力改革其核心搜索业务。虽然长期以来被视为 AI 研究的领军者，但谷歌的管理层因为在 AI 产品上市方面的迟缓而受到批评，特别是在 ChatGPT 和图像生成器 Dall-E 取得病毒式成功之后。自从 OpenAI 在今年三月发布了 GPT-4，谷歌一直在忙于重申其在这一领域的领导地位，其中包括将新技术融入其不断成熟的搜索业务中。

Gemini 正是谷歌回应市场压力的举措。谷歌表示，这个 AI 模型“天生就是多模态的”，这意味着它一开始就被训练得能处理用户的文本和图像提示。例如，在一个视频演示中，谷歌展示了家长如何通过上传一个数学问题的图片和孩子尝试解决该问题的工作纸照片，来帮助孩子完成家庭作业。

谷歌软件工程师 Taylor Applebaum 在演示中表示：“Gemini 不仅能够解决这些问题，还能阅读并理解答案的正确与错误，并解释那些需要更多说明的概念。”该公司还透露，它们的“搜索生成体验”——一种使用生成式 AI 技术的谷歌搜索引擎的实验版本——预计明年将融合 Gemini 的新功能。

不过，公司的代表也提醒大家，Gemini 仍然可能出现“幻觉”，即生成式 AI 制造的虚假或编造信息。Collins 称这是“一个尚未解决的研究难题”。公司向记者展示的演示是事先录制好的。

Collins 还指出，Gemini 进行了谷歌所有 AI 模型中最为全面的安全评估。他解释说，为了测试 Gemini 的安全性，谷歌对这个 AI 模型进行了对抗性测试，模拟恶意用户试图利用该程序的场景。这些测试包括了艾伦人工智能研究院开发的“真实毒性提示”——一个从网络上收集的超过 100,000 条提示的测试，目的是帮助 AI 研究者检测大型语言模型中的仇恨言论和政治偏见。

公司还强调了该工具的高速性能。Gemini 使用了一种新的超级计算机底层架构和更新的处理芯片，使其运行速度远超以往的小型模型。谷歌使用了新版的云芯片，即 Cloud TPUs，这些由谷歌内部设计的芯片使得训练现有模型的速度比之前快了 2.8 倍。谷歌机器学习副总裁 Amin Vahdat 表示，这种方法为谷歌在未来的标准 AI 基础设施方面提供了新的视角。他还提到，公司目前仍然使用第三方 AI 芯片来运行 Gemini 模型。

Gemini 即将融入 Bard，这是谷歌在三月份推出的生成式 AI 聊天机器人。通过这一整合，Bard 能够链接谷歌众多广受欢迎的服务，如 Gmail、Maps、Docs 和 YouTube。这个整合过程将分为两个阶段进行：首先，从本周三起，Bard 将启用 Gemini Pro，使其具备先进的推理、规划、理解等功能。Bard 将能在全球 170 个国家和地区使用英语进行操作，但值得注意的是，它暂时无法在欧洲和英国提供服务，因为谷歌正与当地的监管机构协调相关事宜。

明年年初，谷歌计划推出 Bard Advanced，这将由更高级的 Gemini Ultra 模型驱动。为了在向公众更广泛发布前进一步完善 Bard Advanced，谷歌即将启动一个受信任的测试者计划。

谷歌 Bard 项目的产品副总裁 Sissie Hsiao 表示：“Gemini 的集成将使 Bard 得到迄今为止最大的升级，为人们创造、互动和合作开启全新的可能。”

转译自彭博社的报道：网页链接

 微博新知