Google发布Gemini 3大模型,性能远超GPT-5.1,已接入Google搜索(2)(2)
2025-11-19 18:24:55 王大永

  【TechWeb】11月19日消息,Google正式发布Gemini 3大模型,该模型包含了原生多模态、推理、Agent等多种能力,性能大幅领先Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1模型。

  Google DeepMind研究团队称:“Gemini 3是全球领先的多模态理解模型,更是Google迄今为止最强大的智能体(Agentic)和氛围编程(Vibe Coding)模型,能够提供更丰富的可视化效果和更深度的交互体验,而这一切都构建在最先进的推理能力之上。”

  Google 和 Alphabet 首席执行官Sundar Pichai表示:“从今天起,我们将 Gemini 全面融入谷歌的产品生态。其中包括在搜索的 AI 模式(AI Mode)下的 Gemini 3,具备更复杂的推理能力和全新的动态体验。这是我们首次在产品发布当日就将 Gemini 引入搜索。此外,Gemini 3 今天也同步向 Gemini app 用户、AI Studio 和 Vertex AI 的开发者、以及我们全新的智能体开发平台 Google Antigravity 中同步推出。”

  Sundar Pichai还透露,自两年前推出Gemini大模型以来,现在,每月有 20 亿用户使用 AI 概览(AI Overviews)。Gemini app 的月用户量已突破 6.5 亿,超过 70% 的 Cloud 客户使用我们的 AI,1300 万开发者在使用我们的生成模型进行构建。

  对于Gemini 3 的发布,OpenAICEO萨姆•奥特曼(Sam Altman)、xAI创始人、CEO埃隆•马斯克(Elon Musk)在X上都发来点赞。奥特曼发推评价“Gemini 3看起来很不错”,马斯克转发了谷歌DeepMind CEO的推文称“Nice work”。

  Gemini 3 Pro性能超GPT-5.1,Claude Sonnet 4.5

  此次推出的Gemini 3包括Gemini 3 Pro 预览版、Gemini 3 Deep Think 模式。

  其中,Gemini 3 Pro 预览版将集成到 Google 的全栈产品中。用户在日常生活中即可使用它来学习、构建和规划一切事务。Gemini 3 Deep Think 模式——这一增强型推理模式将 Gemini 3 的性能再次提升至全新高度,该模式首先供安全测试人员试用,预计将在未来几周内向 Google AI Ultra 订阅用户开放该功能。

  Google公开的信息显示,在每个关键的 AI 基准测试中,Gemini 3 Pro 的性能均显著超越 2.5 Pro,并且也大幅领先竞争对手Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1。

  Gemini 3 Pro在 LMArena 排行榜上以 1501 的突破性 Elo 评分高居榜首。其在推理能力上展现出博士水平,在“人类终极考试”中(未使用任何工具的情况下得分率达 37.5%)及 GPQA Diamond 基准测试中(准确率高达 91.9%)均获得最高分。此外,它在数学领域为前沿模型树立了全新标杆,在 MathArena Apex 测试中,以 23.4% 达到了最先进水平(State-of-the-Art)。

  除了文本能力,Gemini 3 Pro 在 MMMU-Pro 上取得 81% 的成绩,在 Video-MMMU 上达到 87.6%。同时,该模型在 SimpleQA Verified 基准测试中也斩获了当前最先进的 72.1% 得分,展现出其在事实准确性方面的显著进步。这意味着 Gemini 3 Pro 具备高度可靠性,能够有效解决跨越科学和数学等广泛主题的复杂问题。

  在测试中,Gemini 3 Deep Think 在“人类最终考试”(Humanity’s Last Exam)中的表现(未使用工具的情况下达到 41.0%)以及在 GPQA Diamond 测试中的表现(达到 93.8%),均超越了 Gemini 3 Pro。此外,它还在 ARC-AGI -2 基准测试中取得了 45.1% 的突破性成绩(启用代码执行)。这三项测试中,Gemini 3 Deep Think表现均超越Claude Sonnet 4.5和GPT-5.1模型。

投稿:lukejiwang@163.com
点击展开全文
Copyright © 2002-2025 鹿科技