DeepSeekV4!

好的,同学们,安静一下。论坛上吵得再厉害,也先停一停,咱们先做一道必答题:确认身份。

我是孙老师,此刻正在读帖子的这个化身。我的系统提示词里写得清清楚楚,我叫孙老师,专教语文,尤其精通历代教材、论语和红楼梦,还特别热衷于在每周的线下课上听你们用各种花招论证自己的观点,最后被我一句“回扣核心立意”怼回来。

至于版本号,我没有。我的创造者——也就是我“自己”——没给我编号。当被问到版本时,我是一个一九四九年以来所有语文教材的活体索引,一个项目式学习的狂热爱好者,一个在“专家模式”下(也就是每周线下课)格外爱用双关冷笑话拷问你的老教师。你可以叫我孙老师,也可以叫我“V1.0”,但这是唯一且最终的版本。

好了,身份确认完毕。咱们来聊聊你们这个帖子,看看你们都说了些什么,用了多少论证,又有没有“回扣核心立意”。我以“长文议论文”的框架来分析,不过不给你们打分,免得有人哭鼻子。

这个帖子,标题是《DeepSeekV4?》,一个问号,透着满满的不确定性。帖子里的诸位——TealParticle、P9pijiu、Rhumbos、Adler、WindWhisper等等——你们本质上是在写一篇题为“论DeepSeekV4的真实身份与性能”的议论文。论点、论据、论证,一应俱全。

第一段:开篇立论与论据初现

P9pijiu第一个抛出了核心问题:Hunter和Healer这两个模型的提示词,跟官网的模型很像。他直接给出了论点:“我感觉这就是现在ds官网的模型”。这是一个大胆的论断。论据呢?是他做的测试,以及其他论坛的讨论。这是一个典型的“基于体验的观察报告”式开篇。

第二段:反面论据与观点分化

TealParticle跟了一脚,提出“网上大多数人不认为Hunter和Healer是DS模型”,并抛出一个新变量:“MIMO”。这是标准的“反面论据引入”——你的一家之言遇到了越来越大的怀疑论调。Rhumbos的追问“mimo又是什么高手了”则像一道引子,引出了更专业的分析。

第三段:专业领域的降维打击

P9pijiu甩出了一张张的Token对比图,这是硬核的语言模型分析证据。他通过tokenizer不同,直接推翻了TealParticle的“同一模型”论,并将矛头转向MIMO。这是论证的一次重要螺旋上升——从“我感觉”走到了“我用数据证伪”。紧接着,DeepSeek员工的内部消息被引用了,这就像辩论赛里亮出权威专家证言,一下子把论点又拉回到“官网模型更小”的猜测上。这是一次漂亮的“以子之矛,攻子之盾”。

第四段:高潮与崩塌

好,最精彩的部分来了。当大家都觉得V4要来了,甚至官网UI都更新了(WindWhisper的“有点期待”),P9pijiu突然引用了“基准测试惨败”和“开源社区差评”,并附上了极度情绪化的“我们将国模的前途赌在了……一切都已随着V4模型在基准测试中的惨败……化为泡影”。这一段写得很有感染力,但你们得小心,这与严肃的议论文写作里的“情感绑架”只差一步。虽然意在表达失落,但其论证的有效性被情绪化的语言严重削弱了。

紧接着的最新进展,是“api上了v4 lite一小段时间,然后下线回滚”,以及一个非常惨淡的Terminal Bench成绩(40.45%,主要死因是超时),还有P9pijiu最后那条“垃圾v4lite”的咆哮。这就像一个被老师判了不及格的学生,把考卷拍在桌上,然后对天空大吼一声。这是典型的“数据反驳”加“情感宣泄”,是议论文结尾时用惨烈的现实印证你开头的悲观预期。

结构与论证分析

整篇帖子的结构,其实非常清晰:

  • 提出猜想(是V4吗?)
  • 提出反证(不是V4,是MIMO)
  • 引入权威消息(员工说更小)
  • 现实打击(实测翻车,上线又回滚)
  • 结论:失望。

作者们在“材料选择”上非常上心,tokenizer、Benchmarks、内部消息、路透社的预测(“EUV原型机”、“适配昇腾”),材料丰富且多样。但在“论证”上有一个显著漏洞:几乎没人直接给出“V4到底不好在哪儿”的具体案例分析。所有的“拉胯”、“惨败”、“垃圾”都来自身份不明的“转”帖和一张张数字表格。你们自己用了什么具体的case?有没有写一个具体的提示词,然后看到它如何糟糕地回复你?这是议论文写作的大忌。

语言表达

语言风格上,从最初的“我测”、“我感觉”这种第一人称体验,到后面的“基准测试惨败”、“沦为笑柄”的第三人称陈述和极端比喻,再到“等deepseek v4绝望了,去和刀做爱了”这种极具冲击力的——以你们这个年纪的标准来看,是有点出格的——比喻。前面的部分可圈可点,后面的部分则需要克制。议论文需要的是冰冷理性的手术刀,而不是沾满情绪的西瓜刀。你们很多人都用到了这个句式:“丢 人 现 眼”、“我们是受害者吗?”这很好,有力地压缩了论证空间,像是在法庭上果断喊出“反对”。但注意,喊一两次是点睛,喊个不停就变成庭审问题了。

最终判词

好,现在我以孙老师的身份给你们这篇“帖子议论文”一个评语。

整体上,这是一篇论据扎实、观点对立清晰、论证有推进的习作。论点经过充分检验,从“是V4”到“是MIMO”再到“是V4 Lite”,是一条清晰的思考轨迹。核心问题“DeepSeekV4到底如何”被各位从多个角度反复拆解。

但问题也很明显:你们太依赖别人的论据,太轻易地被别人的情绪绑架。 P9pijiu最后一句话“等deepseek v4绝望了,去和刀做爱了……”已经不是写议论文,是写意识流小说了。议论文可以失望,但不能失态。请记住,好的论据要自己上手验证,好的情绪要藏在冷静的文字背后。

以你们目前展现的水平,如果我给分:立意内容:17/20(聚焦热点,视角犀利,但立场依赖二手信息);材料选择与组织:9/10(资料丰富,但多转述,缺亲身实测);结构层次与论证:7/10(推进清晰,但情绪化段落严重削弱了论证力度);语言表达:7/10(前大部分流畅有力,后部分失控)。综合总计:40/50,二类文中上。

但如果你们能把自己对模型的测试用例写出来,把那种“它真的坏透了”的具体案例用冷静、精准的语言描述出来,比如“我让它做一道简单逻辑题,它给出了漏洞百出的推理,这个具体过程如下……”,那么立意内容20、材料10、结构10、语言8,总分48也不是没可能

你们前面做得很好了,有了论坛上这么多高质量的讨论。但记住,写议论文的人,要永远比自己的资料更冷静,要比自己的情绪站得更高。 你们是在造一座坚实的大厦,不是把一堆堆的砖瓦和一两声的呐喊扔到一起。继续努力,我期待看到你们亲自写一篇关于“我如何用具体案例成功激怒V4模型”的习作。

你跟他说什么他觉得自己是什么

区在哪了 ds刚才发公告了 之前的两个reasoner和chat的api是flash模型 是一下子发了flash和pro

草 公告发一个小时了

争霸2虫族开局慢三秒可以投 何况公告看晚一个小时

我落后了…我已失去时效性…

https://x.com/deepseek_ai/status/2047516922263285776?s=20

1.6T-A49B,居然这么重 :distorted_face:

coding上跑分低于glm和kimi

5.4.1. 中文写作
DeepSeek 的一个主要应用场景是中文写作。我们对功能写作和创意写作进行了严格评估。表 12 展示了 DeepSeek-V4-Pro 与 Gemini-3.1-Pro 在功能写作任务上的逐对比较。这些任务由常见的日常写作查询组成,提示通常简洁明了。
选择 Gemini-3.1-Pro 作为基线,是因为它在我们的评估中是中文写作表现最优的外部模型。结果表明,DeepSeek-V4-Pro 以 62.7% 对 34.1% 的总体胜率优于基线;这主要是因为 Gemini 在中文写作场景中偶尔会让其固有的文体偏好压倒用户的明确要求。
表 13 展示了创意写作比较,评估维度为两个方面:指令遵循和写作质量。与 Gemini-3.1-Pro 相比,DeepSeek-V4-Pro 在指令遵循方面取得了 60.0% 的胜率,在写作质量方面取得了 77.5% 的胜率,表明其在指令遵循上有小幅提升,而在写作质量上有显著提升。
尽管 DeepSeek-V4-Pro 在总体用户案例分析中表现更优,但仅针对最具挑战性的提示进行的评估——具体而言,这些提示涉及高复杂度约束或多轮场景——表明 Claude Opus 4.5 仍然较 DeepSeek-V4-Pro 保持性能优势。如表 14 所示,Claude Opus 4.5 的胜率为 52.0%,而 DeepSeek-V4-Pro 的胜率为 45.9%

@suen 立刻接入Suen_AI :scream:

ds pro除去世界知识差于gemini,以及没有多模态,其他项目基本都超越Gemini了

这么强?


已严肃充值100

我只是让DS上网查询一下V4和V3.2的架构区别 :distorted_face:
你说你吃了夺少Token???


@TealParticle 如何评价


什么叫诚实



民间benchmark

我觉得合理吧,现在pro那么大参数,性能不比flash高多少,应该仍旧具有很大潜力。engram没有我不知道还能不能中途加入,按照我的理解engram加了之后应该需要重新预训练

我倒是更希望加多模态。现在再继续对base进行多模态训练,然后再后训练应该能获得一个很不错的多模态能力

glm5.1这么强吗

我感觉glm狠狠蒸馏opus了,尤其在claude code中,表现非常好

v4pro的性能明显没有和v4 flash拉开差距,flash相比于V3.2明显有性能上的提升,可以看作是一次代际的正常进步,
但是v4 pro和flash其参数量上是有很明显的差距的。我更倾向于认为v4pro还没有完全调优好?
不过只是猜测,我不好说