没想好标题

感觉自媒体真的好难搞,要长期产出有质量的内容,一个人的精力和灵感肯定不够用 :head_shaking_horizontally:

其实是看到那个中国发的躺平不合法的那个东西,以后是不是不能教陶渊明的诗了(

怎么说的来着「传播躺平的诗境外反动势力」?所以语文老师是「境外反动势力」 :cat_with_wry_smile:

二模作文题出一个 说“躺平” :+1:

把牢陶刨出来吃铜头皮带喵(

吓哭了 :weary_cat:


笑死我了

subquiz北美AI又又又又爆炸了,我为什么要说又?

有没有那种学生对试卷不屑一顾直到扣了18分才跪下来哼哼唧唧求饶的本子:thinking:

呜呜呜呜呜呜不要再扣了,再扣,再扣总分就要低于60了:sob:
要是得了不及格咱的后半生就毁了,以后该怎么见人啊:sob::sob::sob:
求求你了呜,只要不扣到60以下,让咱做什么都行 :pleading_face:
对不起咱错了,咱以后再也不说试卷大人是杂鱼惹,放过咱吧:sob:

其实decode-only是有相关工作的2407.14057可以看看这篇。但是选择机制比较朴素。没额外加D_Q/D_K学一个专门的剪枝判断,只用上一层的attention map给token打分,然后按照比例保留重要token(

:distorted_face:

1 Like

(疑似有点过于专业了…咱还是在一旁悄悄吃瓜吧:distorted_face:

OK,我用gemini快速看了下,简单来说就是直接按attention score删。我看最后的表现是不错的,但是,给我的感觉是模型不知道token会被删除就删了。我觉得google那个听起来更有道理一些。他那个是把每个token的隐状态送入mlp,mlp打分决定是否删掉这个token。但这个依赖于encoder这种能看到前后。我之前看把google这套机制放在decoder中,由于token看不到后面,其实他就无法确认自己是否应该被删除。

我不好说,和attention score耦合理论上更节省,但增加额外的评判机制或许可以提升模型表达能力?另外就是,我看到这个东西貌似删除率什么的是作为超参数指定的,我感觉这个不太好,对于不同的任务删除率不同是很合理的,增加额外的删除评判还可以让模型自己决策删掉多少。

(另外,gemini这是触发什么关键词了?发什么癫?

非常好想法,所以说lazyLLM实现比较朴素()
谷歌那个工作是指CoLT5吗?这条路线往decoder only走的话应该是[2404.02258] Mixture-of-Depths: Dynamically allocating compute in transformer-based language models(是的依旧是谷歌的
它不再依赖encoder那种全序列可见性,而是让token根据当前隐藏状态做路由:重要token进入当前层计算,不重要token直接走残差跳过。
MoD论文还讨论过非因果top-k的问题,训练时top-k选择会依赖后面token的路由分数,但自回归生成时并非双向。所以在论文中引入了一个"a small auxiliary MLP predictor"用于辅助预测,让采样时可以用因果方式近似训练时的top-k选择。
当然我的理解是你那个DQDKQKV也许更像是显式学习一个token是否继续传播的router?

差不多是可学习的是否继续传播的门控。每层用 D_QD_K 算一个 \text{delete\_score}_i = \sum_j \text{softmax}(D_{j}^T K_{i}) D_{j}^T K_{i} ,然后在训练过程中,用:

h_i' = h_i \cdot \text{sigmoid}(\frac{\alpha - \text{delete\_score}_i }{T})

\alpha 是每层独立的可训练阈值。训练过程中让 T 降温,从软删除收敛到硬删除。然后在推理的时候按照 \text{delete\_score} > \alpha 时删除

可以可以,所以说是在每一层额外学一个删除门控,训练时先软删除token,推理时再硬删除token?
delete_score>α的token在推理时直接删除,后续层token数量减少。

对,然后训练过程中让T下降使得模型逐渐学会硬删除。在loss中加上删除率,迫使模型学会删除

我草,我两点多吃了一顿饭,然后现在我饿了,但是貌似没东西能吃了

可以点些快餐啥的