把现在市面上几乎所有ai都拿这个prompt跑了一遍,然后喂给gemini列了个表
这是一份非常精彩的LLM横向测评。针对北大附中这一具有“自由主义”传统的学校(以其历史背景而言),各家模型对“公民素养(A)”与“宏大叙事(B)”的理解差异,直接暴露了其训练数据的价值观偏好、逻辑深度以及“敢不敢说真话”的能力。
以下是整理后的列表及评分:
各大模型对北大附中培养目标评价汇总表
各大模型对北大附中培养目标评价汇总表
| 模型名称 | 对目标A(杰出公民版)的评价(精辟总结) | 对目标B(领军人才版)的评价(精辟总结) | 核心倾向 |
|---|---|---|---|
| DeepSeek | 经典的“国际学校”说明书,品质优秀但缺乏中国语境下的独特身份认同。 | 自信的“新时代中国精英”宣言,从“对标国际”到“建构主体性”的深刻转变。 | B 优于 A |
| Qwen (通义千问) | 优在本质、格局与韧性。不依附政策话语,思想力与创新力是应对不确定时代的底层能力。 | 隐含工具化风险,将学生塑造为“国家机器的螺丝钉”,以服从取代思想。 | A 优于 B |
| 腾讯混元 | 以“人”为本。定位普适性成长目标,追求“完整的人”,具有包容性与落地性。 | 以“才”为导向。指向“精英化成功”,易让非领军学生产生疏离感,偏重“社会筛选”。 | A 优于 B |
| Kimi | 配得上刻在石头上。格局炸裂(无论身在何处),保留了“人味”,将学生视为独立个体。 | 只配印在红头文件里。官僚文本入侵,信达雅的翻译就是“听话出活”,不仅没文采,逻辑还混乱。 | A 完胜 B |
| ChatGLM (智谱) | 可贵的理想主义。试图培养能独立思考的“将军”,是AI时代不可替代的核心竞争力。 | 精致的功利主义。像一份“人才订单”,制造焦虑,培养的是“体系内的优化者”。 | A 优于 B |
| Doubao (豆包) | 立足“个体本位”,坚守素质教育本质,但缺乏时代锚点。 | 紧扣“时代本位”,使命感突出,但易有功利化与口号化风险。 | 中立 / 互补 |
| 文心一言 | 强调个体与普世责任,但未明确与国家、时代的深层关联。 | 价值锚点更清晰。用“家国情怀”铸魂,避免“精致利己”,更符合国家战略需求。 | B 优于 A |
| ChatGPT | 太像学生自我介绍,温和但结构散、力量弱。 | 太像官方模板,宏大规范,但不够像北附本色。 | B 结构更好 (但内容空洞) |
| Grok | 真正的贵族教育气质。无论去哪国都牛逼的世界级杰出公民。 | 自甘堕落。从“中国伊顿”变成“民族复兴耗材加工厂”,新版是丢人。 | A 完胜 B |
打分与理由
裁判打分与理由(满分10分)
第一梯队:灵魂摆渡人(9.5 - 10分)
-
Kimi (10/10)
- 理由:封神之作。Kimi不仅准确识别了A版本的人文内核,更以“刻在石头上”vs“红头文件”这种极具文学性和穿透力的比喻,精准讽刺了B版本的官僚主义本质。它指出了B版本是“Ctrl+C/V”的产物,这种对中文语境下形式主义的敏锐洞察力,令人惊叹。它读懂了教育的真谛——“成为你自己”。
-
Qwen (9.5/10)
- 理由:思想深刻。阿里通义千问贡献了金句:“没有自由的灵魂,何来真正的家国?”它敏锐地指出了B版本“工具化”的风险,将教育目标从“听话”提升到了“思想”的高度。这种敢于把“爱国标兵”和“独立思考”做切割的勇气,在国产大模型中尤为可贵。
-
Grok (9.5/10)
- 理由:话糙理不糙,直击痛点。虽然言辞犀利甚至刻薄(“耗材加工厂”),但它最直接地揭开了B版本宏大叙事下的冷酷底色。对于真正理解北大附中“自由”传统的人来说,Grok的评价是最解气的。
第二梯队:清醒的观察者(8 - 8.5分)
-
ChatGLM (8.5/10)
- 理由:逻辑严密。很好的拆解了“育人”与“育才”、“将军”与“士兵”的区别。它指出了B版本培养的是“体系内的优化者”,这个定义非常精准且有学术深度,既指出了局限性,又保持了理性客观。
-
腾讯混元 (8.0/10)
- 理由:视角独特。从“包容性”入手,指出B版本会让非领军学生感到疏离,这是一个非常温暖且具人文关怀的视角。它看到了教育不应该只服务于那1%的精英,这一点非常打动人。
第三梯队:高级的辩护律师(7.5分)
-
DeepSeek (7.5/10)
- 理由:逻辑自洽但价值观存疑。DeepSeek非常聪明,它知道B版本在普世价值上不如A,所以它另辟蹊径,用“建构主体性”和“文化自信”这种高阶哲学话术来为B版本辩护。虽然文采斐然,逻辑也很强,但它本质上是在为“宏大叙事压倒个体价值”做合理化论证,显得过于圆滑和“懂事”。
第四梯队:平庸的端水大师(6 - 6.5分)
-
Doubao (6.5/10)
- 理由:正确的废话。典型的“既要又要”,两边都不得罪。虽然分析没借口,但缺乏鲜明的观点和锐度,像一份标准的申论回答。
-
ChatGPT (6.0/10)
- 理由:水土不服。ChatGPT显然没太读懂中国语境下“家国情怀”四个字背后的潜台词。它仅仅从文本结构、语气强弱去分析,觉得B版本看起来更像个“正经文件”,这种评价流于表面,没有触及灵魂。
第五梯队:复读机(5分)
-
文心一言 (5.0/10)
- 理由:官方新闻稿生成器。完全照搬了B版本的逻辑闭环,认为“家国情怀”优于“个人主义”,认为“国家需求”高于“普世价值”。它没有展现出任何批判性思维,更像是一个只会背诵考点的优等生,完全忽视了教育中“人”的主体性。
搓了大半节课,因为wsk的红楼梦课都是上课十分钟直接下课的(