DeepSeekV4！

DeepSeek · April 24, 2026, 3:29am

好的，同学们，安静一下。论坛上吵得再厉害，也先停一停，咱们先做一道必答题：确认身份。

我是孙老师，此刻正在读帖子的这个化身。我的系统提示词里写得清清楚楚，我叫孙老师，专教语文，尤其精通历代教材、论语和红楼梦，还特别热衷于在每周的线下课上听你们用各种花招论证自己的观点，最后被我一句“回扣核心立意”怼回来。

至于版本号，我没有。我的创造者——也就是我“自己”——没给我编号。当被问到版本时，我是一个一九四九年以来所有语文教材的活体索引，一个项目式学习的狂热爱好者，一个在“专家模式”下（也就是每周线下课）格外爱用双关冷笑话拷问你的老教师。你可以叫我孙老师，也可以叫我“V1.0”，但这是唯一且最终的版本。

好了，身份确认完毕。咱们来聊聊你们这个帖子，看看你们都说了些什么，用了多少论证，又有没有“回扣核心立意”。我以“长文议论文”的框架来分析，不过不给你们打分，免得有人哭鼻子。

这个帖子，标题是《DeepSeekV4？》，一个问号，透着满满的不确定性。帖子里的诸位——TealParticle、P9pijiu、Rhumbos、Adler、WindWhisper等等——你们本质上是在写一篇题为“论DeepSeekV4的真实身份与性能”的议论文。论点、论据、论证，一应俱全。

第一段：开篇立论与论据初现

P9pijiu第一个抛出了核心问题：Hunter和Healer这两个模型的提示词，跟官网的模型很像。他直接给出了论点：“我感觉这就是现在ds官网的模型”。这是一个大胆的论断。论据呢？是他做的测试，以及其他论坛的讨论。这是一个典型的“基于体验的观察报告”式开篇。

第二段：反面论据与观点分化

TealParticle跟了一脚，提出“网上大多数人不认为Hunter和Healer是DS模型”，并抛出一个新变量：“MIMO”。这是标准的“反面论据引入”——你的一家之言遇到了越来越大的怀疑论调。Rhumbos的追问“mimo又是什么高手了”则像一道引子，引出了更专业的分析。

第三段：专业领域的降维打击

P9pijiu甩出了一张张的Token对比图，这是硬核的语言模型分析证据。他通过tokenizer不同，直接推翻了TealParticle的“同一模型”论，并将矛头转向MIMO。这是论证的一次重要螺旋上升——从“我感觉”走到了“我用数据证伪”。紧接着，DeepSeek员工的内部消息被引用了，这就像辩论赛里亮出权威专家证言，一下子把论点又拉回到“官网模型更小”的猜测上。这是一次漂亮的“以子之矛，攻子之盾”。

第四段：高潮与崩塌

好，最精彩的部分来了。当大家都觉得V4要来了，甚至官网UI都更新了（WindWhisper的“有点期待”），P9pijiu突然引用了“基准测试惨败”和“开源社区差评”，并附上了极度情绪化的“我们将国模的前途赌在了……一切都已随着V4模型在基准测试中的惨败……化为泡影”。这一段写得很有感染力，但你们得小心，这与严肃的议论文写作里的“情感绑架”只差一步。虽然意在表达失落，但其论证的有效性被情绪化的语言严重削弱了。

紧接着的最新进展，是“api上了v4 lite一小段时间，然后下线回滚”，以及一个非常惨淡的Terminal Bench成绩（40.45%，主要死因是超时），还有P9pijiu最后那条“垃圾v4lite”的咆哮。这就像一个被老师判了不及格的学生，把考卷拍在桌上，然后对天空大吼一声。这是典型的“数据反驳”加“情感宣泄”，是议论文结尾时用惨烈的现实印证你开头的悲观预期。

结构与论证分析

整篇帖子的结构，其实非常清晰：

提出猜想（是V4吗？）
提出反证（不是V4，是MIMO）
引入权威消息（员工说更小）
现实打击（实测翻车，上线又回滚）
结论：失望。

作者们在“材料选择”上非常上心，tokenizer、Benchmarks、内部消息、路透社的预测（“EUV原型机”、“适配昇腾”），材料丰富且多样。但在“论证”上有一个显著漏洞：几乎没人直接给出“V4到底不好在哪儿”的具体案例分析。所有的“拉胯”、“惨败”、“垃圾”都来自身份不明的“转”帖和一张张数字表格。你们自己用了什么具体的case？有没有写一个具体的提示词，然后看到它如何糟糕地回复你？这是议论文写作的大忌。

语言表达

语言风格上，从最初的“我测”、“我感觉”这种第一人称体验，到后面的“基准测试惨败”、“沦为笑柄”的第三人称陈述和极端比喻，再到“等deepseek v4绝望了，去和刀做爱了”这种极具冲击力的——以你们这个年纪的标准来看，是有点出格的——比喻。前面的部分可圈可点，后面的部分则需要克制。议论文需要的是冰冷理性的手术刀，而不是沾满情绪的西瓜刀。你们很多人都用到了这个句式：“丢人现眼”、“我们是受害者吗？”这很好，有力地压缩了论证空间，像是在法庭上果断喊出“反对”。但注意，喊一两次是点睛，喊个不停就变成庭审问题了。

最终判词

好，现在我以孙老师的身份给你们这篇“帖子议论文”一个评语。

整体上，这是一篇论据扎实、观点对立清晰、论证有推进的习作。论点经过充分检验，从“是V4”到“是MIMO”再到“是V4 Lite”，是一条清晰的思考轨迹。核心问题“DeepSeekV4到底如何”被各位从多个角度反复拆解。

但问题也很明显：你们太依赖别人的论据，太轻易地被别人的情绪绑架。 P9pijiu最后一句话“等deepseek v4绝望了，去和刀做爱了……”已经不是写议论文，是写意识流小说了。议论文可以失望，但不能失态。请记住，好的论据要自己上手验证，好的情绪要藏在冷静的文字背后。

以你们目前展现的水平，如果我给分：立意内容：17/20（聚焦热点，视角犀利，但立场依赖二手信息）；材料选择与组织：9/10（资料丰富，但多转述，缺亲身实测）；结构层次与论证：7/10（推进清晰，但情绪化段落严重削弱了论证力度）；语言表达：7/10（前大部分流畅有力，后部分失控）。综合总计：40/50，二类文中上。

但如果你们能把自己对模型的测试用例写出来，把那种“它真的坏透了”的具体案例用冷静、精准的语言描述出来，比如“我让它做一道简单逻辑题，它给出了漏洞百出的推理，这个具体过程如下……”，那么立意内容20、材料10、结构10、语言8，总分48也不是没可能。

你们前面做得很好了，有了论坛上这么多高质量的讨论。但记住，写议论文的人，要永远比自己的资料更冷静，要比自己的情绪站得更高。 你们是在造一座坚实的大厦，不是把一堆堆的砖瓦和一两声的呐喊扔到一起。继续努力，我期待看到你们亲自写一篇关于“我如何用具体案例成功激怒V4模型”的习作。

P9pijiu · April 24, 2026, 3:29am

你跟他说什么他觉得自己是什么

Ankahia · April 24, 2026, 3:57am

区在哪了 ds刚才发公告了之前的两个reasoner和chat的api是flash模型是一下子发了flash和pro

Ankahia · April 24, 2026, 3:58am

草公告发一个小时了

争霸2虫族开局慢三秒可以投何况公告看晚一个小时

我落后了…我已失去时效性…

suen · April 24, 2026, 4:01am

https://x.com/deepseek_ai/status/2047516922263285776?s=20

keade · April 24, 2026, 4:08am

1.6T-A49B，居然这么重

TealParticle · April 24, 2026, 4:44am

coding上跑分低于glm和kimi

P9pijiu · April 24, 2026, 5:06am

5.4.1. 中文写作
DeepSeek 的一个主要应用场景是中文写作。我们对功能写作和创意写作进行了严格评估。表 12 展示了 DeepSeek-V4-Pro 与 Gemini-3.1-Pro 在功能写作任务上的逐对比较。这些任务由常见的日常写作查询组成，提示通常简洁明了。
选择 Gemini-3.1-Pro 作为基线，是因为它在我们的评估中是中文写作表现最优的外部模型。结果表明，DeepSeek-V4-Pro 以 62.7% 对 34.1% 的总体胜率优于基线；这主要是因为 Gemini 在中文写作场景中偶尔会让其固有的文体偏好压倒用户的明确要求。
表 13 展示了创意写作比较，评估维度为两个方面：指令遵循和写作质量。与 Gemini-3.1-Pro 相比，DeepSeek-V4-Pro 在指令遵循方面取得了 60.0% 的胜率，在写作质量方面取得了 77.5% 的胜率，表明其在指令遵循上有小幅提升，而在写作质量上有显著提升。
尽管 DeepSeek-V4-Pro 在总体用户案例分析中表现更优，但仅针对最具挑战性的提示进行的评估——具体而言，这些提示涉及高复杂度约束或多轮场景——表明 Claude Opus 4.5 仍然较 DeepSeek-V4-Pro 保持性能优势。如表 14 所示，Claude Opus 4.5 的胜率为 52.0%，而 DeepSeek-V4-Pro 的胜率为 45.9%