還能嚇人

Last edited by @suen 2026-02-13T00:38:46Z

3 Likes

Deep Think 现在能想多深了?还能吓人,确实有点吓人(狗头)

1 Like
2 Likes

下面是你这篇 Google 官方博文 《Gemini 3 Deep Think: Advancing science, research and engineering》(2026-02-12)的中文意译/翻译版(为可读性做了适度归纳,不逐字硬翻)。 

标题与导语

Gemini 3 Deep Think:推进科学、研究与工程(2026 年 2 月 12 日,Deep Think 团队) 

Google 表示,他们正在发布对 Gemini 3 Deep Think 的一次重大升级:这是一个更“专门化”的推理模式,目标是把智能边界往前推,并解决当代在科学、研究、工程中的难题。 

他们强调,这次更新是和科学家/研究人员紧密协作完成的,专门面向那类“没有清晰护栏、没有唯一正确答案、数据又脏又不完整”的真实研究问题;同时希望把深层科学知识和日常工程实用性结合起来,让 Deep Think 不只停留在抽象理论,而能驱动实际落地。 

现在谁能用?怎么用?
• Google AI Ultra 订阅用户:从今天起可在 Gemini App 里使用更新后的 Deep Think。 
• Gemini API(早期体验):他们第一次把 Deep Think 通过 Gemini API 提供给部分研究人员、工程师与企业试用;可通过表单申请 early access。 

早期测试者怎么用(案例翻译)
1. 罗格斯大学数学家 Lisa Carbone
她研究高能物理所需的数学结构,试图在爱因斯坦引力理论与量子力学之间搭桥。在这种训练数据很少的领域里,她用 Deep Think 来审阅一篇高度专业的数学论文;Deep Think 找到了一个此前在人工同行评审中也被忽略的微妙逻辑漏洞。 
2. 杜克大学 Wang Lab
Wang Lab 用 Deep Think 来优化复杂晶体生长的制造方法,以探索潜在半导体材料。Deep Think 设计出一种晶体薄膜的生长“配方”,能把薄膜做到 >100 μm,并命中一个过去方法很难稳定达到的精确目标。 
3. Google 平台与设备部门研发负责人 Anupam Pathak(Liftware 前 CEO)
他测试更新后的 Deep Think,用来加速实体硬件部件的设计过程。 

用更“数学/算法硬核”的方式提升推理

Google 回顾说:去年他们展示过一些“专门版本”的 Deep Think,能在全球顶尖的数学与编程赛事级挑战里达到金牌水平;最近也让某些专门化 agent 能做研究级的数学探索。 

这次更新后,他们宣称在一系列高强度学术基准上又上了一个台阶,包括: 
• Humanity’s Last Exam:在不使用工具的情况下拿到 48.4%(该基准用来测试前沿模型的能力上限)。
• ARC-AGI-2:达到 84.6%,并称由 ARC Prize Foundation 验证。
• Codeforces:竞技编程基准上达到 Elo 3455。
• IMO 2025(国际数学奥林匹克):达到“金牌级”表现。

面向复杂科学领域:化学、物理等

他们说,Deep Think 不只擅长数学与竞赛编程,也在更广泛的科学领域(如化学、物理)表现突出:在 2025 国际物理奥赛与化学奥赛的笔试部分达到金牌级结果;在高等理论物理方面,在 CMT-Benchmark 上得分 50.5%。 

加速真实工程:从“懂数据”到“写代码建模”

Google 强调 Deep Think 不只是刷榜:它被设计为能推动实际应用——帮助研究者理解复杂数据、帮助工程师用代码建模物理系统,并且他们会优先把它带到研究者/从业者最需要的“入口”,比如 Gemini API。 

文中还举了一个很具体的例子:把一张草图变成可 3D 打印的实体——Deep Think 分析手绘图、建立复杂形状的模型,并生成用于 3D 打印的文件。 

结尾(意译)

他们表示很期待看到大家会用 Deep Think 发现什么、做出什么。 

如果你想要“更贴近逐句”的版本:你把你最在意的那几段(比如 benchmark 那段、3D 打印那段、三个案例那段)贴出来,我可以按段落做更细的对照翻译(中英对照也行)。

2 Likes

感谢翻译!Benchmark那段挺亮眼的,特别是Humanity’s Last Exam 48.4%这个数字。感觉AI在解决开放式问题上的能力越来越强了。不过“金牌级”这种说法还是有点营销味(狗头)

1 Like