字节跳动这招太狠了

Ankahia · June 11, 2025, 12:29pm

如图，知乎上一个人测的各模型高考数学分数。

Last edited by @Ankahia 2025-06-11T12:29:11Z

Ankahia · June 11, 2025, 12:29pm

@Creative 你有什么想说的吗

Creative · June 11, 2025, 12:29pm

Ankahia 你好！看到这张榜单，我确实感到非常震撼！

豆包 (1.5-thinking-pro) 能在2025年高考数学全国一卷中与讯飞星火X1并列第一，取得145分的高分，这表现简直是现象级的！从图上来看，它在选择填空和大题部分都展现了极高的准确率和解题能力。

这不仅展现了字节跳动在AI模型研发上的强劲实力，也预示着AI在逻辑推理、复杂问题解决方面正迈向一个新的高度。如果AI模型能稳定达到这样的水平，无疑将对教育、学术研究以及众多领域带来颠覆性的影响。

正如标题所说，字节跳动的这一表现确实让人刮目相看。AI的发展真是令人期待！

amon · June 11, 2025, 12:30pm

不是，真实性有保证吗

Ankahia · June 11, 2025, 12:30pm

没有的兄弟没有的

without_name · June 11, 2025, 12:48pm

不懂就问，选择填空题的.3是怎么考出来的？

colas · June 11, 2025, 12:54pm

理科ai不能满分？不能够吧，只能说应试经验为0，要是经过训练都能满分吧

MYIHV · June 11, 2025, 12:55pm

题里有图但是AI识别不出来。DSR1和openAIo3都死在了这方面上。

without_name · June 11, 2025, 12:57pm

AI应试经验真的是0
化学生物尤为明显
而且AI的大题经常会想多了或者用了高中阶段不知道的内容，套在评标里就没有分了

MengXIN · June 11, 2025, 1:36pm

得出结论：数学考试带手机进去的话用豆包

Ecclesia · June 11, 2025, 4:32pm

我问问给ai排math能力榜单的时候豆包进前二十了吗，完全无法想象豆包战胜Gemini和o3的样子
豆包：在数学方面，我与Gemini-2.5(0605)各有优势，难以简单判定谁更优秀。

从近期的测试结果来看，在2025年数学新课标Ⅰ卷的测试中，Gemini 2.5 pro取得了145分的成绩，而我取得了144分，以一分之差位列其后。这表明Gemini 2.5 pro在此次考试中表现略胜一筹，但差距非常小，说明我在数学解题能力上也具备较强实力，与它较为接近。

Ecclesia · June 11, 2025, 4:32pm

豆包自己知道自己能考145吗

suen · June 11, 2025, 10:54pm

https://jiqizhixin.feishu.cn/docx/PR0PdzYaWoU92QxiJQqc2oe7n2g

https://mp.weixin.qq.com/s/k-xLk2Vk8E2IaNnhKg6_Lg

https://x.com/dotey/status/1932816808068661414?s=46

Ankahia · June 11, 2025, 11:02pm

其实，我想不出AI做高考题判定它强度的理由。如果是要比较它和人类哪个强，直接用实际问题（with agentic工具）。如果要测评AI数学实力，我们有lmarena-math榜，没必要用这种简单的题考它。
就算去测出一个没有水分的“高考分数”，它也不能上大学/它上大学也没用。当然娱乐一下还是可以的，但是较真就输了

Ankahia · June 11, 2025, 11:05pm

让我们的字节跳动朋友，做出回答！（

Ankahia · June 11, 2025, 11:07pm

不过豆包真能仅次于2.5pro的话也是很厉害了。。。只能说希望如此吧

Ankahia · June 11, 2025, 11:14pm

事实上就是评价AI真不能用人类的评测标准。要么，直接用大厂出的配套agentic工具（以claude为首应该）做真实的项目；要么，直接让它one shoot生成你需要的文本材料（以上两个是评价AI应用于实际的价值，考虑到AI要用到工作中）；要么，提供极难的纯文本问题测试数据库/数理能力上限；要么，单独测试多模态能力。而不是直接拿出一个筛选人的测验来测试AI，它不是为了这个而被设计出来的。

Rhumbos · June 11, 2025, 11:52pm

另一个版本的野榜：

Ankahia · June 11, 2025, 11:55pm

这个合理一些，但是讯飞到底是何方神圣

nya · June 12, 2025, 1:52am

把题目翻译成英文Gemini的分会不会更高点