MYIHV
1
感觉不如 … …deepseek … … open … …
Last edited by @avix 2025-01-23T14:15:31Z
MYIHV
2
《ChatGPT?CheatGPT!——OpenAI 数学基准测试特权访问风波背后的信任危机》
文|科技观察者
一、当“裁判”与“选手”身份重叠:一场被预设的“突破”
2024年12月,OpenAI 发布新一代模型 o3,其宣称在高级数学推理基准测试 FrontierMath 中以 25.2% 的准确率“碾压”其他模型(如 GPT-4 仅 2%)。然而,2025年1月,Epoch AI 承包商 Meemi 在 LessWrong 论坛爆料称,OpenAI 不仅资助了 FrontierMath 的开发,还提前获得了测试题库的特权访问权。这一行为被质疑为“既当裁判又当选手”,其成绩提升可能源于对测试数据的“污染”而非技术突破。
FrontierMath 由 60 余位顶级数学家(包括菲尔兹奖得主陶哲轩)共同打造,问题难度极高,人类专家需数小时甚至数天才能解决。然而,参与设计的数学家们多数未被告知 OpenAI 的资助关系和数据访问权限,六位贡献者表示“若知情则不会参与”。
二、从“口头协议”到信任崩塌:OpenAI 的承诺为何无人买单
面对质疑,Epoch AI 承认未及时披露 OpenAI 的参与,并解释称双方有“口头协议”保证测试数据不用于模型训练,同时强调存在“独立保留集”用于验证模型能力。然而,这一说辞引发更大争议:
- “保留集”尚未完成:Epoch AI 首席数学家 Elliot Glazer 承认保留测试集仍在开发中,无法立即验证 o3 的真实能力。
- OpenAI 的“前科”阴影:从“蒙骗董事会”到前员工保密协议,OpenAI 的公信力早已受损。AI 治理专家米哈伊尔·萨明直言:“OpenAI 的欺骗行为已成惯性”。
- 行业双标:竞争对手如 DeepMind、xAI 无法访问相同数据,评测公平性荡然无存。纽约大学教授 Gary Marcus 讽刺此举如同“考生提前背答案”,并斥责 o3 的展示是“科学上粗制滥造的表演”。
三、资本垄断下的评测异化:谁在定义“技术进步”?
事件暴露了 AI 行业 Benchmark 竞争的扭曲生态:
- 头部公司的标准控制:OpenAI 通过资金绑定评测机构,挤压学术团队与小型实验室的生存空间。斯坦福学者 Subbarao Kambhampati 指出,此类行为将导致“虚假繁荣”,最终扼杀创新。
- 过拟合的“高分陷阱”:FrontierMath 本应评估模型泛化能力,但 OpenAI 对题库的特权访问可能导致 o3 在特定问题上过拟合。谷歌 DeepMind 研究员 Ted Xiao 分析称,OpenAI 或通过调整训练数据方向“取巧”优化成绩,而非实现真正的推理突破。
四、透明度缺失与学术伦理:一场“被出卖”的信任
事件的核心矛盾在于 资本与学术独立性的冲突:
- 数学家的“工具化”:贡献者陶哲轩等人在不知情下成为 OpenAI 技术营销的“背书工具”。Epoch AI 联创 Tamay Besiroglu 虽道歉,却将责任归咎于“合同限制”,被批“公关话术”。
- 评测机制的脆弱性:FrontierMath 宣称“独立”,实则依赖企业资金,且透明度机制形同虚设。亚利桑那州立大学教授 Subbarao Kambhampati 指出,OpenAI 的保密条款本身即具“可疑性”。
五、结语:当“一眼丁真”成为行业常态
此次风波不仅是 OpenAI 的公关危机,更是 AI 发展伦理困境的缩影:
- 技术迫切性 vs 伦理滞后:为争夺技术霸权,企业不惜牺牲透明度,甚至将学术成果工具化。
- 公众信任的崩解:从 ChatGPT 的“幻觉”到 o3 的“特权作弊”,AI 光环正在褪色。若行业无法建立独立评测体系,公众或将习惯以“一眼丁真”的态度审视所有“突破”。
(本文综合自公开报道与专家评论,事件后续进展将持续追踪)
deepseek写的文章
nya
3
借個樓問問,各位的chatgpt現在還能上嗎?為何我的似了
應該不是牆的問題,我其他境外應用皆可上
1 Like
MYIHV
4
没用过,不过这玩意还有上的必要吗?另外openAI有专门封中国人的机制(是的,中国其实没有墙chatgpt,是chatgpt墙了中国),可能最近机制升级了。
MYIHV
7
估计closeAI限制强化了,学不会中国人算法(deepseek)倒是把墙学明白了。
nya
10
疑似昨天那個時間點是openai故障了,過一段時間就可用了
1 Like
suen
11