Bootstrap

【Models】混合专家模型(MoE)

1 混合专家模型(MoE)定义是什么?

基于 Transformer 架构,用稀疏 MoE 层替代传统前馈网络(FFN)层,由门控网络决定令牌路由至相应专家网络处理,能提升模型效率与规模。

2 在 DeepSeekMoE 架构中,亲和度分数(affinity score)的公式是什么?

在这里插入图片描述

3 在 DeepSeekMoE 架构中,centroid vector(质心向量)的定义是什么?

在这里插入图片描述

4 Auxiliary-Loss-Free Load Balancing(无辅助损失的负载均衡)策略的定义和公式是什么?

在这里插入图片描述

4 为什么加入偏置项能实现负载均衡?

改变专家优先级:偏置项改变专家最终得分,正偏置提高得分,负偏置降低得分,调整路由优先级,改变请求分配方向。
依据负载动态调整:偏置项依损失函数梯度更新,若专家负载过高,偏置项向降低得分方向调整,减少请求分配;负载过低则相反,可实时自适应平衡。
增加路由灵活性:仅靠亲和度得分易使部分专家过载,偏置项打破固定分配模式,增加路由选择,能灵活适应复杂负载状况 。

5 Auxiliary-Loss和Auxiliary-Loss-Free的区别是什么?

损失函数使用:Auxiliary - Loss 采用额外辅助损失函数,与主损失函数共同引导模型训练;Auxiliary - Loss - Free 则不使用辅助损失函数。
负载均衡机制:Auxiliary - Loss 通过辅助损失调整模型参数来实现负载均衡;Auxiliary - Loss - Free 依靠迭代的令牌路由和偏差更新策略,动态调整专家路由分数偏差来均衡负载。
对模型训练影响:Auxiliary - Loss 可能因辅助损失引入与主目标冲突的梯度,干扰训练,需谨慎权衡;Auxiliary - Loss - Free 避免了干扰梯度问题,使训练更稳定、无噪声,有利于提升模型性能上限。

6 举个例子说明Auxiliary-Loss 和Auxiliary-Loss-Free。

假设有一家工厂,有多个工人负责组装产品。
Auxiliary-Loss
管理者设定了辅助规则:若某个工人组装产品过多,会扣除其绩效分;过少则减少休息时间。根据这个规则,下一批原材料分配时,会倾向分给绩效分高或休息时间长的工人,以此平衡工作量。但这可能让工人为避免惩罚,忽视产品质量。
Auxiliary-Loss-Free
管理者观察工人状态,若工人手头任务少,就优先分配原材料;若任务多,就减少分配。这种方式不设额外惩罚,只根据工人实时工作量动态分配,既保证工作量均衡,又让工人专注生产 。

;