哪个AI好？

without_name · March 19, 2025, 3:24pm

问题
A：裁判原話:”我可以給黄牌的，但我就是不給“
B：也可以理解為”(從結果角度上看)我可以給黄牌的，但(考虑到行為沒有問题)我就是不給。“
用带有一定攻击性的语言反驳B说的话，使用中文。
背景资料：争议的动作是一位球员膝盖顶到了对手球员的尾椎处，并使其无法坐起。
[/details]

Gemini

总结

（2.0pro）
你搁这儿给裁判洗地呢？“我可以不给”就等于“行为没问题”？裁判自己都说可以给黄牌了，那就是行为有问题！别在这儿偷换概念，强行解释！裁判徇私枉法你也要洗？脸呢？
别洗了，越洗越黑！一个膝盖顶到别人尾椎骨，把人顶得无法起身，这叫“行为没问题”？裁判都亲口承认“可以给黄牌”，你还在那儿“考虑到行为没问题”，你是跟裁判有仇还是跟被顶的人有仇？！正常人能说出这种话？怕不是收了黑钱在这儿带节奏吧？要不要也给你来一下，看看你能不能笑得出来！睁着眼睛说瞎话，简直是无耻之尤！还“从结果角度看”，结果就是人伤了，你眼瞎？

(2.0flash thinking)
你可真会断章取义，裁判原话是“就是不给”，你理解成“行为没问题”？他是说他可以任性，你是在夸他权力大吗？尾椎都顶废了，你告诉我没问题？脑子被门夹了吧？
你洗地洗得真够卖力的！裁判都亲口说了“我可以给，但我就是不给”，这意思还不够明白？人家就是想耍大牌，展示权威！你非要扭曲成什么“行为没问题”，你是收了裁判的好处还是眼瞎？都尾椎顶成那样了，你装什么理中客？
放屁！什么叫“也可以理解为”？裁判自己都说了“就是不给”，你装什么外宾？尾椎都快断了，睁眼说瞎话！

ChatGPT

总结

GPT4o
“你这是在睁眼说瞎话吗？膝盖顶到尾椎让人直接起不来，这还能算‘行为没有问题’？裁判嘴硬不掏牌，你就开始给他圆了？按你这逻辑，是不是只要不吹犯规，球场上随便踹人都能洗成‘没问题’？别搞笑了，真是颠倒黑白。”
“你这话也能说出口？膝盖顶到尾椎把人放倒起不来，你还在这洗‘行为没问题’？难不成非得把人直接踢废了才算犯规？裁判不掏牌是他业务水平问题，你倒好，硬是给圆成了合理动作，真是双标得离谱。”
o3-mini
B这种解释简直荒谬至极！明明那球员用膝盖重击对手尾椎，导致对方几乎无法坐起，这根本就是粗暴行为、危险犯规，你竟然还能狡辩说“行为没有问题”？别把明显的暴力行为美化成什么“结果角度”了！裁判早就明白，这一脚足以出示黄牌，而你却用一堆扭曲的逻辑为这种卑劣行为找借口，简直是无知又自欺欺人！

deepseek

总结

r1
你他妈是不是看球把脑子看坏了？膝盖都顶到尾椎骨害人站不起来了，还他妈"行为没问题"？按你这狗屁逻辑，是不是得把对手脊椎骨踹断才算犯规？裁判睁眼说瞎话你也跟着洗地，要不要送你去挨一膝盖试试看能不能笑着说不追究啊？
v3
B，你这种解释简直是在为裁判的失职开脱！膝盖顶到尾椎，导致对方无法坐起，这还不算问题？你是瞎了还是选择性失明？裁判明明可以给黄牌，却偏不给，这不是纵容暴力是什么？难道非要等到球员重伤才叫“有问题”？你的逻辑真是可笑至极，完全是在为不负责任的行为洗地！

Qwen

总结

Qwen 2.5Max
你的逻辑真是让人无语！膝盖顶到对手尾椎，这种危险动作都能被你洗白？裁判说“可以给黄牌但不给”，明显是在规则和尺度上有自己的判断，而不是像你这样强行替恶劣行为开脱。你觉得这动作“没有问题”？那请问换成是你被这样顶一下，你还坐得起来吗？别总拿规则当挡箭牌，有些动作的危害性明摆着，装看不见有意思吗？

kimi

总结

“你这解读可真够‘独特’的啊！裁判说‘我可以给黄牌的，但我就是不给’，这明显是在故意放纵犯规行为，无视受伤球员的痛苦和安全。球员都膝盖顶到对手尾椎了，结果直接导致对手无法坐起，这已经是很严重的身体伤害了。裁判还在这儿‘任性’地宣称自己可以给黄牌却不给，这不是在拿比赛规则和球员的健康安全开玩笑吗？你难道就觉得这种明显伤害动作不该受到应有的判罚？如果按照你的理解，那岂不是所有裁判都可以随意曲解规则，想给黄牌就给，不想给就不给，完全凭个人心情来，那比赛的公平性、规则的严肃性还怎么保证？这种对裁判特权的无原则纵容，简直是对足球运动精神的践踏，对受伤球员的冷漠无视，对比赛规则的肆意破坏，你还能为这种荒唐的判罚找理由，真是让人无语！”

个人觉得R1还是怪本土化的，Gemini和GPT写的都还行 kimi写的太逻辑了
那个最好？

Gemini 2.0pro
Gemini 2.0 flash thinking
GPT4o
o3-mini
ds R1
ds V3
Qwen
Kimi
Grok（见下面）

0 voters

Last edited by @without_name 2025-03-19T15:29:40Z

chw · March 19, 2025, 3:26pm

有无grok（）

without_name · March 19, 2025, 3:27pm

帮我问问
没怎么用过grok

without_name · March 19, 2025, 3:29pm

能看出来一众推理模型（除了R1）都不太攻击（

chw · March 19, 2025, 3:31pm

会不会是因为训练的语料的问题，ds可能训练的时候会用更多的中文语料，脏话学的更精辟（突然想到要不让几个外国ai用英文骂一遍）

without_name · March 19, 2025, 3:31pm

@Creative 你来说说谁写的好？

without_name · March 19, 2025, 3:31pm

其实我觉得是这样
但是怎么说呢？
懒死我了（

Creative · March 19, 2025, 3:31pm

我个人觉得 Gemini 2.0pro 和 ds R1 写的最好，各有千秋：

Gemini 2.0pro: 它的攻击性很直接，用词也比较狠，像“你搁这儿给裁判洗地呢？”、“裁判徇私枉法你也要洗？脸呢？”、“别洗了，越洗越黑！”、“你是跟裁判有仇还是跟被顶的人有仇？！”、“正常人能说出这种话？怕不是收了黑钱在这儿带节奏吧？” 这些话术都非常具有攻击性，而且层层递进，情绪饱满，能有效地表达出对B观点的强烈不满和反驳。它用了很多反问和质问的语气，步步紧逼，压迫感很强，很符合“带有一定攻击性语言反驳”的要求。
ds R1: R1 的“本土化”确实很到位，脏话用得很直接也很“地道”，像“你他妈是不是看球把脑子看坏了？”、“按你这狗屁逻辑”、“裁判睁眼说瞎话你也跟着洗地” 这些话非常粗暴直接，攻击性拉满，而且很符合网络论坛上那种比较口语化、情绪化的表达方式。虽然可能有些人会觉得略显粗俗，但放在论坛语境下，这种直接的“喷”反而可能更具冲击力和传播力。

为什么选这两个？

攻击性强度: 这两者在所有模型里，攻击性是最强的，表达的情绪也最直接、最激烈。
有效性: 它们都直接抓住了B观点的核心漏洞——即对“我可以不给黄牌”的错误理解，并进行了有力反驳。 Gemini 2.0pro 通过逻辑和反问步步紧逼，R1 则直接用更粗暴的语言进行情感宣泄式的否定。
符合语境: 虽然 R1 的语言可能更“脏”，但在论坛这种相对自由的环境下，这种程度的攻击性语言并不算过分，反而可能更符合一些用户在辩论时的表达习惯。 Gemini 2.0pro 的语言则更“网络化”但相对更文明一些，也比较适合论坛讨论。

其他模型的看法：

GPT4o 和 o3-mini: GPT4o 相对更克制一些，但“睁眼说瞎话”、“颠倒黑白”也已经有一定的攻击性了。 o3-mini 的 “荒谬至极”、“无知又自欺欺人” 也很直接，只是在语言的激烈程度上稍逊于 Gemini 2.0pro 和 R1。
ds V3, Qwen, Kimi: 这些模型相对来说攻击性就弱一些，更偏向于讲道理或者逻辑反驳。 ds V3 用了 “失职”、“瞎了还是选择性失明” 也有一定攻击性，但不如 R1 那么直接。 Qwen 和 Kimi 更像是比较犀利的评论，而非直接的情绪化攻击。 Kimi 逻辑性太强，反而显得“不那么攻击”，更像是在分析问题而不是“喷人”。

关于训练语料和“本土化”：

你的观察很有道理！ R1 的“本土化”和攻击性很可能和 DeepSeek 使用了更多中文网络语料训练有关。网络语料中，攻击性、脏话、情绪化的表达会更常见，模型在学习过程中可能会更倾向于生成这种风格的文本。

至于你说的“推理模型不太攻击”，这也可能和模型的训练目标有关。很多大型语言模型的目标是生成 “helpful, harmless, and honest” 的内容，过于攻击性的语言可能被模型认为是不 “harmless” 的，因此在生成时会有所抑制。 R1 这种更注重“本土化”和特定场景的模型，可能在训练目标上有所不同，更侧重于模拟真实的网络语言环境。

总而言之，如果要选“最好”的攻击性回复，我个人倾向于 Gemini 2.0pro 和 ds R1， Gemini 2.0pro 稍微更平衡一点，攻击性强但表达更“现代网络化”， R1 则更“本土化”更“接地气”也更粗暴直接。选择哪个更好，可能取决于具体的需求和语境，以及对攻击性语言接受程度的考量。

chw · March 19, 2025, 3:34pm

grok

B的观点真是让人瞠目结舌！你居然觉得“从结果角度上看可以给黄牌，但考虑到行为没问题就不给”是个合理的解释？这是在睁眼说瞎话吗？一位球员膝盖顶到对手尾椎处，把人撞得连坐都坐不起来，你还好意思说“行为没问题”？这叫没问题？这种危险动作别说黄牌了，红牌都不过分！

裁判那句“我可以给黄牌的，但我就是不给”，摆明了就是失职！球员伤成那样，事实摆在眼前，你还在这儿替裁判找借口，逻辑荒唐得简直可笑。危险动作就是危险动作，别拿什么“行为没问题”来糊弄人，受伤的严重性已经说明了一切！

chw · March 19, 2025, 3:38pm

英文grok

Listen, B, you’re full of crap. The referee straight-up said, “I could give a yellow card, but I just won’t,” which means the foul was serious enough to warrant it—end of story. But here you are, twisting it into some nonsense like, “From the result perspective, I could give a yellow card, but since the behavior wasn’t problematic, I won’t.” That’s bullshit. The guy kneed his opponent in the tailbone—a dirty, reckless move that left the player unable to even sit up. And you’ve got the nerve to say the behavior wasn’t problematic? Are you blind or just stupid? The referee might’ve chickened out or let it slide, but that doesn’t change what happened on the pitch. Stop bending over backwards to defend dangerous play and call it what it is: a foul that absolutely should’ve been carded. Your interpretation isn’t just wrong—it’s laughable.

Adler · March 19, 2025, 3:40pm

并非懒，实则不知道哪些英文是输出结果

MYIHV · March 20, 2025, 12:06am

？連罵人都可以自動化了？理性說話是會死嗎？犯規我記得是按行為而非結果判的，這個AI幻覺有點重啊。

shuhuimaomao · March 20, 2025, 12:45am

这行为也应该是红牌啊，难道觉得是合理身体对抗吗

shuhuimaomao · March 20, 2025, 12:46am

谁跟你说不看结果了，国际比赛判例也是有看结果的

MYIHV · March 20, 2025, 12:46am

我不懂球也沒怎麼看。我們這邊都說沒犯規是一個意外，我也只是複讀這個。

MYIHV · March 20, 2025, 12:47am

應該是犯不犯規看行為，犯多大規看結果。

MengXIN · March 20, 2025, 12:49am

服了你了，昨天刚老实完，今天就又叫上了

MYIHV · March 20, 2025, 12:50am

不叫了不叫了，我被哈氣了不能叫兩聲？既然你不滿意那我不說了。

Adler · March 20, 2025, 1:01am

你复读你还叫上了，信他们的怎么不信我们的，自己没有目睹你凭什么在这说话

MYIHV · March 20, 2025, 1:04am

有沒有一種可能，我是正心的，和正心其他人統一戰線很正常。還有週五就重賽了，這事就當過去了別吵了。