没想好标题

kongting · May 3, 2026, 3:27pm

感觉自媒体真的好难搞，要长期产出有质量的内容，一个人的精力和灵感肯定不够用

TealParticle · May 3, 2026, 3:27pm

其实是看到那个中国发的躺平不合法的那个东西，以后是不是不能教陶渊明的诗了（

TealParticle · May 3, 2026, 3:28pm

怎么说的来着「传播躺平的诗境外反动势力」？所以语文老师是「境外反动势力」

P9pijiu · May 3, 2026, 3:31pm

二模作文题出一个说“躺平”

kongting · May 3, 2026, 3:33pm

把牢陶刨出来吃铜头皮带喵（

kongting · May 3, 2026, 3:33pm

吓哭了

TealParticle · May 3, 2026, 3:34pm

笑死我了

MYIHV · May 4, 2026, 12:33am

subquiz北美AI又又又又爆炸了，我为什么要说又？

phaner-D · May 4, 2026, 1:54am

有没有那种学生对试卷不屑一顾直到扣了18分才跪下来哼哼唧唧求饶的本子

kongting · May 4, 2026, 2:02am

呜呜呜呜呜呜不要再扣了，再扣，再扣总分就要低于60了
要是得了不及格咱的后半生就毁了，以后该怎么见人啊
求求你了呜，只要不扣到60以下，让咱做什么都行
对不起咱错了，咱以后再也不说试卷大人是杂鱼惹，放过咱吧

godman999 · May 4, 2026, 3:07am

其实decode-only是有相关工作的2407.14057可以看看这篇。但是选择机制比较朴素。没额外加D_Q/D_K学一个专门的剪枝判断，只用上一层的attention map给token打分，然后按照比例保留重要token（

P9pijiu · May 4, 2026, 3:12am

keade · May 4, 2026, 3:16am

（疑似有点过于专业了…咱还是在一旁悄悄吃瓜吧

TealParticle · May 4, 2026, 5:05am

OK，我用gemini快速看了下，简单来说就是直接按attention score删。我看最后的表现是不错的，但是，给我的感觉是模型不知道token会被删除就删了。我觉得google那个听起来更有道理一些。他那个是把每个token的隐状态送入mlp，mlp打分决定是否删掉这个token。但这个依赖于encoder这种能看到前后。我之前看把google这套机制放在decoder中，由于token看不到后面，其实他就无法确认自己是否应该被删除。

我不好说，和attention score耦合理论上更节省，但增加额外的评判机制或许可以提升模型表达能力？另外就是，我看到这个东西貌似删除率什么的是作为超参数指定的，我感觉这个不太好，对于不同的任务删除率不同是很合理的，增加额外的删除评判还可以让模型自己决策删掉多少。

（另外，gemini这是触发什么关键词了？发什么癫？

godman999 · May 4, 2026, 8:29am

非常好想法，所以说lazyLLM实现比较朴素（）
谷歌那个工作是指CoLT5吗？这条路线往decoder only走的话应该是[2404.02258] Mixture-of-Depths: Dynamically allocating compute in transformer-based language models（是的依旧是谷歌的
它不再依赖encoder那种全序列可见性，而是让token根据当前隐藏状态做路由：重要token进入当前层计算，不重要token直接走残差跳过。
MoD论文还讨论过非因果top-k的问题，训练时top-k选择会依赖后面token的路由分数，但自回归生成时并非双向。所以在论文中引入了一个"a small auxiliary MLP predictor"用于辅助预测，让采样时可以用因果方式近似训练时的top-k选择。
当然我的理解是你那个DQDKQKV也许更像是显式学习一个token是否继续传播的router？

TealParticle · May 4, 2026, 8:49am

差不多是可学习的是否继续传播的门控。每层用 D_Q 和 D_K 算一个 \text{delete\_score}_i = \sum_j \text{softmax}(D_{j}^T K_{i}) D_{j}^T K_{i} ，然后在训练过程中，用：

h_i' = h_i \cdot \text{sigmoid}(\frac{\alpha - \text{delete\_score}_i }{T})

\alpha 是每层独立的可训练阈值。训练过程中让 T 降温，从软删除收敛到硬删除。然后在推理的时候按照 \text{delete\_score} > \alpha 时删除

godman999 · May 4, 2026, 9:00am

可以可以，所以说是在每一层额外学一个删除门控，训练时先软删除token，推理时再硬删除token？
delete_score>α的token在推理时直接删除，后续层token数量减少。

TealParticle · May 4, 2026, 9:01am

对，然后训练过程中让T下降使得模型逐渐学会硬删除。在loss中加上删除率，迫使模型学会删除

TealParticle · May 4, 2026, 4:02pm

我草，我两点多吃了一顿饭，然后现在我饿了，但是貌似没东西能吃了

keade · May 4, 2026, 4:08pm

可以点些快餐啥的