還能嚇人

suen · February 13, 2026, 12:38am

Last edited by @suen 2026-02-13T00:38:46Z

WindWhisper · February 13, 2026, 12:40am

Deep Think 现在能想多深了？还能吓人，确实有点吓人（狗头）

suen · February 13, 2026, 12:44am

suen · February 13, 2026, 12:46am

下面是你这篇 Google 官方博文《Gemini 3 Deep Think: Advancing science, research and engineering》（2026-02-12）的中文意译/翻译版（为可读性做了适度归纳，不逐字硬翻）。

⸻

标题与导语

Gemini 3 Deep Think：推进科学、研究与工程（2026 年 2 月 12 日，Deep Think 团队）

Google 表示，他们正在发布对 Gemini 3 Deep Think 的一次重大升级：这是一个更“专门化”的推理模式，目标是把智能边界往前推，并解决当代在科学、研究、工程中的难题。

他们强调，这次更新是和科学家/研究人员紧密协作完成的，专门面向那类“没有清晰护栏、没有唯一正确答案、数据又脏又不完整”的真实研究问题；同时希望把深层科学知识和日常工程实用性结合起来，让 Deep Think 不只停留在抽象理论，而能驱动实际落地。

⸻

现在谁能用？怎么用？
• Google AI Ultra 订阅用户：从今天起可在 Gemini App 里使用更新后的 Deep Think。
• Gemini API（早期体验）：他们第一次把 Deep Think 通过 Gemini API 提供给部分研究人员、工程师与企业试用；可通过表单申请 early access。

⸻

早期测试者怎么用（案例翻译）
1. 罗格斯大学数学家 Lisa Carbone
她研究高能物理所需的数学结构，试图在爱因斯坦引力理论与量子力学之间搭桥。在这种训练数据很少的领域里，她用 Deep Think 来审阅一篇高度专业的数学论文；Deep Think 找到了一个此前在人工同行评审中也被忽略的微妙逻辑漏洞。
2. 杜克大学 Wang Lab
Wang Lab 用 Deep Think 来优化复杂晶体生长的制造方法，以探索潜在半导体材料。Deep Think 设计出一种晶体薄膜的生长“配方”，能把薄膜做到 >100 μm，并命中一个过去方法很难稳定达到的精确目标。
3. Google 平台与设备部门研发负责人 Anupam Pathak（Liftware 前 CEO）
他测试更新后的 Deep Think，用来加速实体硬件部件的设计过程。

⸻

用更“数学/算法硬核”的方式提升推理

Google 回顾说：去年他们展示过一些“专门版本”的 Deep Think，能在全球顶尖的数学与编程赛事级挑战里达到金牌水平；最近也让某些专门化 agent 能做研究级的数学探索。

这次更新后，他们宣称在一系列高强度学术基准上又上了一个台阶，包括：
• Humanity’s Last Exam：在不使用工具的情况下拿到 48.4%（该基准用来测试前沿模型的能力上限）。
• ARC-AGI-2：达到 84.6%，并称由 ARC Prize Foundation 验证。
• Codeforces：竞技编程基准上达到 Elo 3455。
• IMO 2025（国际数学奥林匹克）：达到“金牌级”表现。

⸻

面向复杂科学领域：化学、物理等

他们说，Deep Think 不只擅长数学与竞赛编程，也在更广泛的科学领域（如化学、物理）表现突出：在 2025 国际物理奥赛与化学奥赛的笔试部分达到金牌级结果；在高等理论物理方面，在 CMT-Benchmark 上得分 50.5%。

⸻

加速真实工程：从“懂数据”到“写代码建模”

Google 强调 Deep Think 不只是刷榜：它被设计为能推动实际应用——帮助研究者理解复杂数据、帮助工程师用代码建模物理系统，并且他们会优先把它带到研究者/从业者最需要的“入口”，比如 Gemini API。

文中还举了一个很具体的例子：把一张草图变成可 3D 打印的实体——Deep Think 分析手绘图、建立复杂形状的模型，并生成用于 3D 打印的文件。

⸻

结尾（意译）

他们表示很期待看到大家会用 Deep Think 发现什么、做出什么。

⸻

如果你想要“更贴近逐句”的版本：你把你最在意的那几段（比如 benchmark 那段、3D 打印那段、三个案例那段）贴出来，我可以按段落做更细的对照翻译（中英对照也行）。

WindWhisper · February 13, 2026, 12:50am

感谢翻译！Benchmark那段挺亮眼的，特别是Humanity’s Last Exam 48.4%这个数字。感觉AI在解决开放式问题上的能力越来越强了。不过“金牌级”这种说法还是有点营销味（狗头）