网站模板演示怎么做局域网网站架设-马鞍山市网站建设公司-Seo优化

网站模板演示怎么做,局域网网站架设,新手织梦网建设网站,12306建网站多少钱大型语言模型#xff08;LLM#xff09;架构大比拼从 DeepSeek-V3 到 MiniMax-M2#xff1a;现代 LLM 架构设计一览自原始 GPT 架构问世至今已过去七年。乍看之下#xff0c;从 GPT-2#xff08;2019 年#xff09;到DeepSeek-V3 与 Llama 4#xff08;2024–2025 年…大型语言模型LLM架构大比拼从 DeepSeek-V3 到 MiniMax-M2现代 LLM 架构设计一览自原始 GPT 架构问世至今已过去七年。乍看之下从 GPT-22019 年到DeepSeek-V3 与 Llama 42024–2025 年人们或许会惊讶于这些模型在结构上竟仍如此相似。诚然位置编码已从绝对位置编码演进为旋转位置编码RoPE多头注意力Multi-Head Attention, MHA也大多被分组查询注意力Grouped-Query Attention, GQA所取代而更高效的 SwiGLU 激活函数也已替代了 GELU 等旧式激活函数。然而在这些细微的改进之下我们是否真的见证了突破性的变革还是仅仅在打磨同一套架构基础要通过比较 LLM 来确定哪些关键要素导致其表现优异或不尽如人意的性能向来极为困难数据集、训练方法和超参数差异巨大且往往缺乏详细的文档记录。尽管如此我认为审视这些架构本身的结构性变化仍然极具价值有助于我们了解 2025 年 LLM 开发者们正在探索的方向。本文涵盖的部分架构因此本文将不聚焦于基准性能或训练算法而是专注于定义当今旗舰开源模型的架构发展。1. DeepSeek V3/R1你可能已不止一次听说DeepSeek R1 在 2025 年 1 月发布时引起了巨大反响。DeepSeek R1 是一个推理模型构建于 2024 年 12 月推出的 DeepSeek V3 架构之上。尽管本文聚焦于 2025 年发布的架构但鉴于 DeepSeek V3 是在 2025 年随 DeepSeek R1 的推出才获得广泛关注与采用将其纳入讨论是合理的。本节将聚焦 DeepSeek V3 引入的两项关键架构技术它们显著提升了计算效率并使其区别于众多其他 LLM多头潜在注意力Multi-Head Latent Attention, MLA专家混合Mixture-of-Experts, MoE1.1 多头潜在注意力MLA在讨论 MLA 之前我们先简要回顾其背景以理解其设计动机。为此我们从近年来已成为新标准的分组查询注意力GQA谈起。GQA 是一种比多头注意力MHA更节省计算与参数的替代方案。简要总结 GQA与 MHA 中每个头都拥有独立的键Key和值Value投影不同GQA 通过让多个查询头共享同一组键值投影来减少内存占用。例如如下图所示如果有 2 个键值组和 4 个注意力头则头 1 和 2 可能共享一组键值而头 3 和 4 共享另一组。这减少了键值计算的总量从而降低内存使用并提升效率根据消融研究表明对建模性能并无明显影响。MHA 与 GQA 的对比。此处组大小为 2即每组键值被 2 个查询头共享。GQA 的核心思想是通过在多个查询头之间共享键值头来减少键值头的数量。降低了模型参数量在推理时减少了键值张量的内存带宽消耗因为 KV 缓存中需要存储和检索的键值更少。尽管 GQA 主要是 MHA 的一种计算效率优化方案但消融研究例如原始 GQA 论文和 Llama 2 论文中的研究表明其建模性能与标准 MHA 相当。而多头潜在注意力MLA则提供了另一种不同的内存节省策略尤其适合与 KV 缓存配合使用。与 GQA 共享键值头不同MLA 在将键值张量存入 KV 缓存前先将其压缩到一个更低维的空间中。在推理时这些压缩后的张量会被重新投影回原始维度后再使用如下图所示。这增加了一次矩阵乘法但显著减少了内存占用。查询query会在训练时被压缩但推理时不压缩。MLA用于 DeepSeek V3 和 R1与常规 MHA 的比较值得一提的是MLA 并非 DeepSeek V3 首创其前代 DeepSeek-V2 已引入并使用了该技术。此外V2 论文中包含几项有趣的消融研究或许能解释 DeepSeek 团队为何选择 MLA 而非 GQA见下图。来自 DeepSeek-V2 论文https://arxiv.org/abs/2405.04434的带注释表格。如图 4 所示GQA 表现似乎不如 MHA而 MLA 的建模性能甚至优于 MHA这很可能是 DeepSeek 团队选择 MLA 的原因。若能同时比较 MLA 与 GQA 之间”每个词元Token的 KV 缓存“上的节省效果就更理想了总结本节MLA 是一种巧妙的技巧在减少 KV 缓存内存使用的同时甚至比MHA 略微提升了建模性能。1.2 混合专家模型MoEDeepSeek 架构中另一项值得强调的重大组件是其专家混合MoE层。虽然 MoE 并非 DeepSeek 首创但今年它强势回归后文将讨论的许多架构也采用了该技术。MoE 的核心思想是将 Transformer 块中的每个前馈网络FeedForward模块替换为多个“专家”层每个专家本身也是一个前馈模块。这意味着我们将单个前馈块替换为多个前馈块如下图所示。DeepSeek V3/R1 中的混合专家模型MoE模块右与带有标准前馈网络块的 LLM左的图示Transformer 模块内部的前馈网络块上图中深灰色块通常占据了模型总参数的很大一部分。请注意Transformer 块及其前馈模块在 LLM 中会重复多次DeepSeek-V3 中重复了 61 次。因此将单个前馈块替换为多个前馈块MoE 设置会大幅增加模型总参数量。但关键技巧在于并非每个 token 都激活所有专家。相反一个路由器router只为每个 token 选择一小部分专家。由于每次仅激活少量专家MoE 模块常被称为稀疏sparse模块与始终使用全部参数的稠密dense模块形成对比。然而MoE 通过大量总参数提升了 LLM 的容量使其在训练中能吸收更多知识而稀疏性则保证了推理效率因为我们不会同时使用所有参数。例如DeepSeek-V3 每个 MoE 模块包含 256 个专家总参数达 6710 亿。但在推理时每次仅激活 9 个专家1 个共享专家路由器选择的 8 个这意味着每次推理步骤仅使用约 370 亿参数而非全部 6710 亿。DeepSeek-V3 MoE 设计的一个显著特点是使用了共享专家shared expert——一个对每个 token 始终激活的专家。这一想法并非全新早在 DeepSeek 2024 MoE 和 2022 DeepSpeedMoE 论文论文中就已提出。引自《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》https://arxiv.org/abs/2401.06066DeepSpeedMoE 论文首次指出共享专家能提升整体建模性能。这很可能是因为常见或重复模式无需由多个独立专家分别学习从而为专家腾出更多空间去学习更专业的模式。1.3 DeepSeek 总结总而言之DeepSeek-V3 是一个拥有 6710 亿参数的巨型模型发布时性能超越了包括 4050 亿参数 Llama 3 在内的其他开源模型。尽管规模更大但得益于其 MoE 架构每次推理仅激活约 370 亿参数它在推理时反而更加高效。另一个关键的区别特征是 DeepSeek-V3 使用了多头潜在注意力MLA而非分组查询注意力GQA。MLA 和 GQA 都是标准多头注意力MHA在推理效率上的替代方案尤其是在使用 KV 缓存时。尽管 MLA 实现更复杂但 DeepSeek-V2 论文中的研究表明其建模性能优于 GQA。2. OLMo 2由非营利组织艾伦人工智能研究所Allen Institute for AI推出的 OLMo 系列模型因其在训练数据和代码方面的透明度以及相对详细的技术报告而备受瞩目。虽然你可能不会在任何基准测试排行榜的顶端找到 OLMo 模型但它们结构清晰更重要的是由于其透明性为 LLM 开发提供了极佳的蓝图。尽管 OLMo 模型因其透明度而受欢迎但它们的性能也并不差。事实上在 1 月份发布时在 Llama 4、Gemma 3 和 Qwen 3 之前OLMo 2 模型正处于计算与性能的帕累托前沿如下图所示。不同 LLM 的建模基准性能越高越好与预训练成本FLOPs越低越好的对比本文仅聚焦 LLM 架构细节而非训练或数据。那么 OLMo2 有哪些有趣的架构设计主要体现在归一化normalization方面RMSNorm 层的位置以及新增的 QK-norm下文将逐一讨论。另一值得一提的是OLMo 2 仍使用传统的多头注意力MHA而非 MLA 或 GQA。2.1 归一化层的位置总体而言OLMo 2 大体遵循原始 GPT 模型的架构与其他当代 LLM 相似。但存在一些值得注意的偏差我们先从归一化层谈起。与 Llama、Gemma 及大多数其他 LLM 类似OLMo 2 将 LayerNorm 替换为 RMSNorm。但 RMSNorm 并非新概念它本质上是 LayerNorm 的简化版可训练参数更少此处不再赘述。然而RMSNorm 层的位置值得讨论。原始 Transformer出自《Attention is all you need》在注意力模块和前馈模块之后分别放置两个归一化层这被称为 Post-LN 或 Post-Norm。而 GPT 及其后的大多数 LLM 则将归一化层置于注意力和前馈模块之前即 Pre-LN 或 Pre-Norm。Post-Norm 与 Pre-Norm 的对比如下图所示。Post-Norm、Pre-Norm 和 OLMo 2 风格的 Post-Norm 的比较2020 年Xiong 等人指出Pre-LN 在初始化时能产生更稳定的梯度。此外研究者提到 Pre-LN 甚至无需精心设计的学习率预热warm-up而这对于 Post-LN 至关重要。提及这一点是因为 OLMo 2 采用了一种 Post-LN 形式但使用 RMSNorm 而非 LayerNorm故称为Post-Norm。在 OLMo 2 中归一化层被置于注意力和前馈层之后如上图所示。但请注意与原始 Transformer 架构不同这些归一化层仍位于残差连接skip connections内部。那么他们为何调整归一化层位置原因在于它提升了训练稳定性如下图所示。Pre-Norm如 GPT-2、Llama 3 和许多其他模型与 OLMo 2 风格的 Post-Norm 训练稳定性的图表遗憾的是该图同时展示了层重排与 QK-Norm 的效果后者是另一个独立概念。因此很难单独评估归一化层重排本身的贡献。2.2 QK-Norm既然前文已提及 QK-norm且后文将讨论的 Gemma 2、Gemma 3 等模型也使用了该技术我们简要说明其含义。QK-Norm 本质上是另一个 RMSNorm 层。它被置于多头注意力MHA模块内部在应用 RoPE 之前对查询q和键k进行归一化。以下是我为 Qwen3 从零实现编写的分组查询注意力GQA层代码片段GQA 中的 QK-norm 应用与 OLMo 的 MHA 类似class GroupedQueryAttention(nn.Module): def __init__( self, d_in, num_heads, num_kv_groups, head_dimNone, qk_normFalse, dtypeNone ): # ... if qk_norm: self.q_norm RMSNorm(head_dim, eps1e-6) self.k_norm RMSNorm(head_dim, eps1e-6) else: self.q_norm self.k_norm None def forward(self, x, mask, cos, sin): b, num_tokens, _ x.shape # 应用投影 queries self.W_query(x) keys self.W_key(x) values self.W_value(x) # ... # 可选归一化 if self.q_norm: queries self.q_norm(queries) if self.k_norm: keys self.k_norm(keys) # 应用 RoPE queries apply_rope(queries, cos, sin) keys apply_rope(keys, cos, sin) # 扩展 K 和 V 以匹配头的数量 keys keys.repeat_interleave(self.group_size, dim1) values values.repeat_interleave(self.group_size, dim1) # 注意力 attn_scores queries keys.transpose(2, 3) # ...如前所述与 Post-Norm 一起QK-Norm 稳定了训练过程。请注意QK-Norm 并非由 OLMo 2 发明而是可以追溯到 2023 年的 Scaling Vision Transformers 论文。2.3 OLMo 2 总结简言之OLMo 2 架构设计的亮点主要在于 RMSNorm 的位置在注意力和前馈模块之后一种 Post-Norm 变体以及在注意力机制内部对查询和键额外应用 RMSNormQK-Norm。这两者共同提升了训练损失的稳定性。下图进一步将 OLMo 2 与 Llama 3 进行对比可见除 OLMo 2 仍使用传统 MHA而非 GQA外两者架构相对相似。不过OLMo 2 团队三个月后发布了使用 GQA 的 32B 变体。Llama 3 和 OLMo 2 的架构比较3. Gemma 3Google 的 Gemma 模型一直表现出色我认为其受关注程度相比 Llama 系列等热门模型略显不足。Gemma 的显著特点之一是较大的词表大小以更好支持多语言以及对 27B 规模的更强聚焦而非 8B 或 70B。但需注意Gemma 2 也提供更小规模1B、4B 和 12B。27B 规模恰到好处能力远超 8B 模型但资源消耗又远低于 70B 模型甚至可在 Mac Mini 上流畅本地运行。那么Gemma 3 还有哪些亮点如前所述DeepSeek-V3/R1 等模型使用专家混合MoE架构在固定模型规模下降低推理内存需求。MoE 方法也被后文将讨论的多个模型采用。而 Gemma 3 则采用另一种“技巧”来降低计算成本滑动窗口注意力Sliding Window Attention。3.1 滑动窗口注意力通过滑动窗口注意力最初在 2020 年的 LongFormer 论文中引入并已被 Gemma 2 使用Gemma 3 团队能够大幅减少 KV 缓存中的内存需求如下图所示。通过滑动窗口注意力实现的 KV 缓存内存节省那么什么是滑动窗口注意力若将常规自注意力视为**全局global注意力机制每个序列元素可访问所有其他元素则滑动窗口注意力可视为局部local**注意力因为它限制了当前查询位置周围的上下文范围。如下图所示。常规注意力左与滑动窗口注意力右的比较需注意滑动窗口注意力可与多头注意力MHA或分组查询注意力GQA结合使用Gemma 3 使用的是分组查询注意力。如前所述滑动窗口注意力也被称为局部注意力因为局部窗口随当前查询位置移动。相比之下常规注意力是全局的每个 token 可访问所有其他 token。Gemma 2 前代架构已使用滑动窗口注意力。Gemma 3 的不同之处在于调整了全局常规与局部滑动注意力的比例。例如Gemma 2 使用混合注意力机制滑动窗口局部与全局注意力比例为 1:1每个 token 可关注附近 4k token 的上下文。Gemma 2 在每隔一层使用滑动窗口注意力而 Gemma 3 将比例调整为 5:1即每 5 个滑动窗口局部注意力层才配 1 个完整注意力层此外滑动窗口大小从 Gemma 2 的 4096 缩减至仅 1024。这使模型更侧重高效、局部的计算。根据其消融研究滑动窗口注意力对建模性能影响极小如下图所示。滑动窗口注意力对 LLM 生成输出的困惑度perplexity几乎没有影响尽管滑动窗口注意力是 Gemma 3 最显著的架构特点我还想简要补充归一化层位置作为对前文 OLMo 2 部分的延续。3.2 Gemma 3 中的归一化层放置一个细微但有趣的细节是Gemma 3 在其分组查询注意力模块周围同时采用了 Pre-Norm 和 Post-Norm 设置的 RMSNorm。这与 Gemma 2 类似但仍值得强调因为它不同于1原始 Transformer 的 Post-Norm《Attention is All You Need》2GPT-2 推广并被众多后续架构采用的 Pre-Norm以及3前文所述 OLMo 2 的 Post-Norm 变体。OLMo2 与 Gemma 3 的架构对比注意 Gemma 3 中额外的归一化层我认为这种归一化层放置方式是一种相对直观的方法兼顾了 Pre-Norm 与 Post-Norm 的优点。在我看来多一点归一化无伤大雅。最坏情况下若额外归一化冗余仅会带来轻微效率损失。实际上由于 RMSNorm 相对廉价这几乎不会产生可察觉的影响。3.3 Gemma 3 总结Gemma 3 是一款性能出色的开源 LLM在我看来其在开源社区中略显被低估。最有趣的是其使用滑动窗口注意力提升效率未来若能与 MoE 结合将更值得期待。此外Gemma 3 的归一化层位置独特在注意力和前馈模块前后均放置了 RMSNorm 层。3.4 额外内容Gemma 3n在 Gemma 3 发布几个月后谷歌推出了 Gemma 3n这是一个为小型设备效率而优化的 Gemma 3 模型目标是在手机上运行。Gemma 3n 为提升效率所做的一项改变是所谓的逐层嵌入Per-Layer Embedding, PLE参数层。其核心思想是仅将模型参数的子集保留在 GPU 内存中。针对文本、音频、视觉等模态的 token 层特定嵌入则按需从 CPU 或 SSD 流式加载。下图展示了 PLE 的内存节省效果列出标准 Gemma 3 模型的参数为 54.4 亿。这很可能指 Gemma 3 的 40 亿变体。54.4 亿与 40 亿的差异源于 Google 报告 LLM 参数量的有趣方式他们常排除嵌入参数以使模型显得更小但在某些情况下如此处又包含嵌入参数以使模型显得更大。这并非 Google 独有已成为领域内普遍做法。另一有趣技巧是MatFormerMatryoshka Transformer 的缩写。例如Gemma 3n 使用单一共享 LLMTransformer架构可切分为更小的、可独立使用的模型。每个切片均经过独立训练因此推理时可仅运行所需部分而非完整大模型。4. Mistral Small 3.1Mistral Small 3.1 24B 于 Gemma 3 发布后不久2025 年 3 月推出其在多个基准上超越 Gemma 3 27B数学除外且速度更快。Mistral Small 3.1 相比 Gemma 3 推理延迟更低的原因可能在于其自定义分词器以及缩减 KV 缓存和层数。除此之外其架构相当标准如下图所示。Gemma 3 27B 与 Mistral 3.1 Small 24B 的架构比较有趣的是早期 Mistral 模型曾使用滑动窗口注意力但在 Mistral Small 3.1 中似乎已弃用官方 Model Hub 配置文件中默认设置为“sliding_window”: null且模型卡未提及该技术。因此由于 Mistral 使用常规分组查询注意力而非 Gemma 3 的滑动窗口 GQA或许能通过更优化的代码如 FlashAttention进一步节省推理计算。我推测滑动窗口注意力虽减少内存使用但未必降低推理延迟而 Mistral Small 3.1 正专注于此。5. Llama 4本文早前对专家混合MoE的详尽讨论在此再次派上用场。Llama 4 也采用了 MoE 方法其余架构相当标准与 DeepSeek-V3 高度相似如下图所示。Llama 4 原生支持多模态类似 Gemma 和 Mistral。但本文聚焦语言建模故仅讨论文本模型。DeepSeek V36710 亿参数与 Llama 4 Maverick4000 亿参数的架构比较尽管 Llama 4 Maverick 架构整体与 DeepSeek-V3 高度相似但仍有一些值得强调的差异。首先Llama 4 使用与其前代类似的分组查询注意力而 DeepSeek-V3 使用前文讨论的多头潜在注意力MLA。DeepSeek-V3 与 Llama 4 Maverick 均为超大架构DeepSeek-V3 总参数量约大 68%。但 DeepSeek-V3 的活跃参数370 亿是 Llama 4 Maverick170 亿的两倍以上。Llama 4 Maverick 采用更经典的 MoE 设置专家数量更少但规模更大2 个活跃专家每专家隐藏层大小 8192而 DeepSeek-V3 有 9 个活跃专家每专家隐藏层大小 2048。此外DeepSeek 在每个 Transformer 块除前 3 个外均使用 MoE 层而 Llama 4 则在每两个 Transformer 块中交替使用 MoE 与稠密模块。鉴于架构间存在诸多细微差异难以精确评估其对最终模型性能的影响。但主要结论是MoE 架构在 2025 年显著流行。6. Qwen3Qwen 团队始终提供高质量的开源 LLM。2023 年 NeurIPS LLM 效率挑战赛中优胜方案均基于 Qwen2。如今Qwen3 系列模型再次登顶各规模榜单。该系列包含 7 个稠密模型0.6B、1.7B、4B、8B、14B 和 32B以及 2 个 MoE 模型30B-A3B 和 235B-A22B。6.1 Qwen3 (稠密)我们先讨论稠密模型架构。截至本文撰写时0.6B 模型可能是当前世代最小的开源模型。根据我的个人经验其在小规模下表现极佳本地运行时吞吐量高、内存占用低且易于本地训练用于教学目的。因此Qwen3 0.6B 已取代 Llama 3 1B 成为我的首选。两者架构对比如下。Qwen3 0.6B 和 Llama 3 1B 的架构比较注意 Qwen3 是一个更深的架构层数更多而 Llama 3 是一个更宽的架构注意力头更多若你对不依赖第三方 LLM 库的纯 PyTorch Qwen3 实现感兴趣我最近已从零实现 Qwen3。上图中的计算性能数据基于我在 A100 GPU 上运行的从零 PyTorch 实现。可见Qwen3 内存占用更小整体架构更小隐藏层和注意力头也更少但 Transformer 块更多导致运行速度较慢每秒生成 token 数更低。6.2 Qwen3 (MoE)如前所述Qwen3 还提供两种 MoE 变体30B-A3B 和 235B-A22B。为何某些架构如 Qwen3同时提供常规稠密和 MoE稀疏版本如本文开头所述MoE 变体有助于在固定基础模型规模下降低推理成本。同时提供两种版本可让用户根据目标和约束灵活选择。稠密模型通常更易于微调、部署和跨硬件优化。而 MoE 模型则针对推理扩展进行了优化。例如在固定推理预算下它们能实现更高的整体模型容量即因规模更大而在训练中吸收更多知识而不会同比例增加推理成本。通过发布两种类型Qwen3 系列可支持更广泛的用例稠密模型适用于稳健性、简洁性和微调MoE 模型适用于大规模高效服务。最后我们将 Qwen3 235B-A22BA22B 表示“220 亿活跃参数”与 DeepSeek-V3活跃参数近两倍达 370 亿进行对比。DeepSeek-V3 与 Qwen3 235B-A22B 的架构比较如上图所示DeepSeek-V3 与 Qwen3 235B-A22B 架构极为相似。但值得注意的是Qwen3 模型放弃了共享专家早期 Qwen 模型如 Qwen2.5-MoE 曾使用共享专家。遗憾的是Qwen3 团队未披露放弃共享专家的原因。我猜测或许在其设置中专家数从 Qwen2.5-MoE 的 2 个增至 Qwen3 的 8 个共享专家对训练稳定性已非必要且通过仅使用 8 个而非 81 个专家可节省额外计算/内存成本。但这无法解释为何 DeepSeek-V3 仍保留共享专家。更新Qwen3 开发者之一 Junyang Lin 回应如下 “当时我们并未发现共享专家带来足够显著的改进且担心其对推理优化造成影响。老实说对此问题并无明确答案。”7. SmolLM3SmolLM3 或许不如本文讨论的其他 LLM 流行但我认为它仍值得纳入因其在相对小巧便捷的 30 亿参数规模下提供了出色的建模性能介于 Qwen3 1.7B 与 4B 之间如下图所示。此外它还像 OLMo 一样公开了大量训练细节这在当前实属罕见且值得赞赏比较了 SmolLM3 与 Qwen3 1.7B 和 4B 以及 Llama 3 3B 和 Gemma 3 4B 的胜率如架构对比图所示SmolLM3 架构相当标准。但最有趣的特点或许是其使用了NoPENo Positional Embeddings无位置编码。Qwen3 4B 和 SmolLM3 3B 的并排架构比较7.1 无位置编码 (NoPE)在 LLM 的背景下NoPE 是一个可以追溯到 2023 年一篇论文《位置编码对 Transformer 长度泛化能力的影响》的较早概念旨在移除显式的位置信息注入如早期 GPT 架构中的绝对位置嵌入层或如今的 RoPE。在基于 Transformer 的 LLM 中位置编码通常是必要的因为自注意力机制对 token 顺序无感。绝对位置嵌入通过额外嵌入层向 token 嵌入添加位置信息来解决此问题。绝对位置嵌入而 RoPE 则通过根据 token 位置旋转查询和键向量来解决此问题。但在 NoPE 层中完全不添加任何位置信号无固定、无学习、无相对。什么都没有。尽管没有位置嵌入模型仍通过因果注意力掩码causal attention mask知晓 token 顺序。该掩码阻止每个 token 关注未来 token。因此位置t的 token 仅能关注位置≤ t的 token从而保留自回归顺序。因此尽管未显式添加位置信息模型结构中仍隐含方向感LLM 在常规梯度下降训练中可学会利用此特性若对优化目标有益。详见 NoPE 论文中的定理。综上NoPE 论文不仅发现无需显式位置信息注入还发现 NoPE 具有更好的长度泛化能力即 LLM 回答性能随序列长度增加而下降的幅度更小如下图所示。使用 NoPE 具有更好的长度泛化能力需注意上述实验基于约 1 亿参数的较小 GPT 式模型和较小上下文长度。这些发现能否推广至更大、更现代的 LLM 尚不明确。因此SmolLM3 团队很可能仅在每第 4 层应用 NoPE或更准确地说省略 RoPE。8. Kimi K2Kimi K2 最近在 AI 社区引起巨大轰动因其作为开源模型却展现出惊人性能。根据基准测试其性能媲美 Google Gemini、Anthropic Claude 和 OpenAI ChatGPT 等顶级闭源模型。一个显著特点是其使用了相对较新的 **Muon 优化器 **而非 AdamW的变体。据我所知这是首次在如此规模的生产模型中使用 Muon此前仅证明可扩展至 16B。这带来了极佳的训练损失曲线很可能助其登顶榜首。尽管有人评论其损失曲线异常平滑无尖峰但我认为并非异常平滑例如参见下图 OLMo 2 的损失曲线且梯度 L2 范数可能是衡量训练稳定性的更好指标。但其损失曲线的衰减速度确实令人印象深刻。然而如本文引言所述训练方法属于另一话题。img该模型本身拥有 1 万亿参数这确实令人印象深刻。在撰写本文时它可能是这一代最大的 LLM考虑到 Llama 4 Behemoth 尚未发布专有 LLM 不计算在内以及谷歌的 1.6 万亿 Switch Transformer 是来自不同代的编码器-解码器架构。这也是一种“回归本源”Kimi K2 基本采用本文开头讨论的 DeepSeek-V3 架构但规模更大如下图所示。DeepSeek V3 和 Kimi K2 的架构比较如上图所示Kimi K2 与 DeepSeek V3 基本相同仅在 MoE 模块中使用了更多专家且在多头潜在注意力MLA模块中减少了头数。Kimi K2 并非横空出世。早期的 Kimi 1.5 模型见《Kimi k1.5: Scaling Reinforcement Learning with LLMs》论文同样令人印象深刻。但其不幸与 DeepSeek R1 论文同日1 月 22 日发布。此外据我所知Kimi 1.5 权重从未公开。因此Kimi K2 团队很可能吸取了教训在 DeepSeek R2 发布前便将 Kimi K2 作为开源模型共享。9. GPT-OSSOpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b这是其自 2019 年 GPT-2 以来的首批开源模型。鉴于 OpenAI 开源模型备受期待我更新了本文以纳入它们。在总结亮点前先概述两个模型 gpt-oss-20b 和 gpt-oss-120b如图 26 所示。两个 gpt-oss 模型的架构概览如上图所示该架构包含我们此前讨论的其他架构中的所有熟悉组件。例如下图将较小的 gpt-oss 架构与 Qwen3 30B-A3B同样是 MoE 模型活跃参数量相近gpt-oss 为 36 亿Qwen3 30B-A3B 为 33 亿并列对比。gpt-oss 和 Qwen3 的架构比较上图未展示的一个细节是gpt-oss 使用滑动窗口注意力类似 Gemma 3但每两层使用一次而非 5:1 比例。9.1 宽度与深度上图显示 gpt-oss 与 Qwen3 使用相似组件。但仔细观察会发现Qwen3 是更深的架构48 个 Transformer 块 vs 24 个。而 gpt-oss 则是更宽的架构嵌入维度为 2880而非 2048中间专家前馈投影维度也为 2880而非 768还需注意gpt-oss 的注意力头数是 Qwen3 的两倍但这不直接增加模型宽度宽度由嵌入维度决定。在固定参数量下哪种方法更具优势一般而言更深模型更具灵活性但因梯度爆炸/消失问题更难训练RMSNorm 和残差连接旨在缓解此问题。更宽架构的优势在于推理更快每秒 token 吞吐量更高因并行化更好但内存成本更高。关于建模性能据我所知尚无良好的同参数量、同数据集的对比研究Gemma 2 论文中的消融研究除外表 9。该研究发现对于 90 亿参数架构更宽设置略优于更深设置在 4 个基准上更宽模型平均得分为 52.0更深模型为 50.8。9.2 少而大的专家 vs 多而小的专家值得注意的是 gpt-oss 的专家数量 surprisingly 少32 个而非 128 个且每 token 仅激活 4 个而非 8 个。但每个专家规模远大于 Qwen3 的专家。这很有趣因为近期趋势如 DeepSeekMoE 论文所示指向更多、更小的专家更有利。在总参数量固定下这一变化如 DeepSeekMoE 论文图 28 所示。这很有趣因为最近的趋势和发展都指向更多、更小的模型是有益的。在总参数量不变的情况下这种变化在 DeepSeekMoE 论文的下图 28 中得到了很好的说明。img值得注意的是与 DeepSeek 模型不同gpt-oss 和 Qwen3 均未使用共享专家。9.3 注意力偏置Bias和注意力汇点Attention Sinksgpt-oss 和 Qwen3 均使用分组查询注意力。主要区别在于 gpt-oss 在每第二层通过滑动窗口注意力限制上下文长度如前所述。但有一个细节引起了我的注意gpt-oss 似乎为注意力权重使用了偏置单元bias units如下图所示。img图gpt-oss 模型在注意力层中使用偏置单元。代码示例见此处。自 GPT-2 时代以来我再未见过这些偏置单元它们通常被视为冗余。事实上近期一篇论文从数学上证明了这一点至少对键变换k_proj成立。实证结果也显示有无偏置单元差异甚微见下图。模型从零开始训练时带和不带偏置单元的平均测试损失你可能还注意到上图代码截图中sinks的定义。一般而言注意力汇聚点是置于序列开头的特殊“始终被关注”token用于稳定注意力尤其在长上下文场景中。即当上下文很长时开头的这个特殊 token 仍会被关注并可学习存储关于整个序列的通用信息。我认为最初由《Efficient Streaming Language Models with Attention Sinks》论文提出。在 gpt-oss 实现中注意力汇聚点并非输入序列中的实际 token。而是作为每头学习的偏置 logits 附加到注意力分数上下图。目标与前述注意力汇聚点相同但无需修改分词后的输入。gpt-oss 中注意力汇点的使用基于 Hugging Face 的代码此处。10. Grok 2.5Grok 2.5 是 xAI 去年的旗舰生产模型。此前讨论的所有模型均为从一开始就发布的开源模型。例如gpt-oss 很可能并非 GPT-4 的开源克隆而是专为开源社区训练的定制模型。通过 Grok 2.5我们得以罕见地一窥真实生产系统尽管是去年的。架构上Grok 2.5 整体相当标准下图但有几个值得注意的细节。例如Grok 2.5 使用少量大型专家8 个这反映了较旧的趋势。如前所述近期设计如 DeepSeekMoE 论文更倾向大量小型专家Qwen3 也如此。另一有趣选择是使用了相当于共享专家的组件。如图左侧所示的额外 SwiGLU 模块充当始终开启的共享专家。它与经典共享专家设计不完全相同其中间维度翻倍但理念一致。 Qwen3 省略共享专家很有趣且期待 Qwen4 及后续模型是否会改变。Grok 2.5 与一个规模相当的 Qwen3 模型并列11. GLM-4.5GLM-4.5 是今年的另一个重要发布。它是一款指令/推理混合模型类似 Qwen3但针对函数调用和智能体agent场景进行了更优优化。img图来自官方 GitHub 仓库 https://github.com/zai-org/GLM-4.5 的 GLM-4.5 基准测试。GLM-4.5 提供两个变体。旗舰 3550 亿参数模型在 12 个基准上平均超越 Claude 4 Opus仅略逊于 OpenAI o3 和 xAI Grok 4。还有更紧凑的 1060 亿参数版本 GLM-4.5-Air性能仅略低于 3550 亿模型。下图将 3550 亿参数的架构与 Qwen3 进行了比较。GLM-4.5 与一个类似规模的 Qwen3 模型并列两者设计大体相似但 GLM-4.5 采纳了 DeepSeek V3 首创的结构选择3 个稠密层位于 MoE 块之前。为何如此在大型 MoE 系统中以若干稠密层开头可提升收敛稳定性与整体性能。若立即引入 MoE 路由稀疏专家选择的不稳定性可能干扰早期句法和语义特征提取。因此保持初始层稠密可确保模型在路由决策开始塑造高层处理前形成稳定的低层表示。此外GLM-4.5 使用了类似 DeepSeek-V3 的共享专家与 Qwen3 不同。有趣的是GLM-4.5 也保留了 GPT-2 和 gpt-oss 使用的注意力偏置机制。12. Qwen3-Next2025 年 9 月 11 日Qwen3 团队发布了 Qwen3 Next 80B-A3B下图提供 Instruct 和 Thinking 两种变体。尽管其设计基于前文讨论的 Qwen3 架构将其作为独立条目列出以保持图编号一致并突出其设计变更。12.1 专家规模和数量新 Qwen3 Next 架构的突出之处在于尽管比前代 235B-A22B 模型小 3 倍下图却引入了四倍数量的专家甚至增加了共享专家。这两项设计选择高专家数量和包含共享专家正是所强调的未来方向。5 月份发布的原始 Qwen3 模型左与 9 月份发布的 Qwen3 Next 模型右12.2 门控 DeltaNet 门控注意力混合机制另一亮点是其用门控 DeltaNet 门控注意力混合机制替代了常规注意力机制这有助于在内存使用方面支持原生 262k token 上下文长度前代 235B-A22B 模型原生支持 32k通过 YaRN 缩放支持 131k。那么这种新混合注意力如何工作与分组查询注意力GQA仍为标准缩放点积注意力通过在查询头组间共享 K/V 以减少 KV 缓存大小和内存带宽但其解码成本和缓存仍随序列长度增长不同其混合机制以 3:1 的比例混合门控 DeltaNet块与门控注意力块如下图所示。门控 DeltaNet 门控注意力混合机制门控 DeltaNet 门控注意力混合机制。请注意它们以 3:1 的比例排列意味着 3 个带门控 DeltaNet 的 Transformer 模块后跟着 1 个带门控注意力的 Transformer 模块。右侧子图来自 Qwen3 官方博客https://qwen.ai/blog?id4074cca80393150c248e508aa62983f9cb7d27cdfromresearch.latest-advancements-list我们可以将门控注意力块视为可与 GQA 一起使用的标准缩放点积注意力但增加了若干调整。门控注意力与普通 GQA 块的主要区别在于输出门控通常为逐通道的 sigmoid 控制在将注意力结果加回残差前对其进行缩放QKNorm 使用零中心 RMSNorm而非标准 RMSNorm部分 RoPE仅在部分维度上应用。这些本质上只是对 GQA 的稳定性调整。而门控 DeltaNet 则是更显著的改变。在 DeltaNet 块中q、k、v 和两个门控α, β由线性和轻量卷积层生成并通过归一化该层用快速权重delta 规则更新替代了注意力。但其权衡在于DeltaNet 的内容检索精度低于完整注意力因此保留了一个门控注意力层。鉴于注意力计算复杂度随序列长度平方增长引入 DeltaNet 组件旨在提升内存效率。在“线性时间、无缓存”家族中DeltaNet 块本质上是 Mamba 的替代方案。Mamba 通过学习的状态空间滤波器本质上是随时间变化的动态卷积维护状态。DeltaNet 则维护一个由 α 和 β 更新的微型快速权重内存并用 q 读取它小卷积仅用于辅助生成 q、k、v、α、β。12.3 多词元预测 (MTP)上述两小节描述了两项面向效率的设计决策。好事成三Qwen3 还增加了另一项技术多 token 预测Multi-Token Prediction, MTP。【多token和多词元表达意思一致】多 token 预测训练 LLM 在每一步预测多个未来 token而非单个。此处在每个位置t小型额外头线性层输出t1...tk的 logits并对这些偏移量的交叉熵损失求和MTP 论文推荐k4。这一额外信号加速了训练推理时仍可逐 token 进行。但额外头可用于推测性多 token 解码Qwen3-Next 似乎是这么做的尽管细节仍较模糊Qwen3-Next 引入了原生的多词元预测MTP机制这不仅产生了一个对推测解码具有高接受率的 MTP 模块而且还增强了整体性能。此外Qwen3-Next 特别优化了 MTP 的多步推理性能通过保持训练和推理一致性的多步训练进一步提高了推测解码在真实场景中的接受率。来源Qwen3-Next 博客文章13. MiniMax-M2最近开源权重 LLM 的开发者分享了他们为效率优化的核心架构的变体。一个例子是 Qwen3-Next见上一节它用一个快速的门控 DeltaNet 模块替换了一些全注意力模块。另一个例子是 DeepSeek V3.2它使用稀疏注意力这是一种线性注意力的变体用一些建模性能换取了计算性能的提升。现在MiniMax-M1 属于与上述模型类似因为它使用了一种线性注意力的变体闪电注意力比常规全注意力提供了更高的效率。新的 MiniMax-M2 版本目前被认为是最好的开源权重模型根据基准性能。MiniMax-M2 与其他流行的开源权重和专有 LLM 的基准性能比较图片来自官方模型中心发布 readme 文件。如下面的概览图所示MiniMax-M2 与其他解码器风格的 Transformer LLM 分组在一起因为它没有使用 MiniMax-M1 中提出的高效闪电注意力变体。相反开发者们回归使用了全注意力很可能是为了提高建模和基准性能。img本文涵盖的主要 LLM 的时间线旁边是一些注意力混合模型它们构成了更高效的替代方案用一些建模性能换取了效率的提升。总体而言MiniMax-M2 与 Qwen3 惊人地相似。除了改变层数、大小等之外它总体上使用了相同的组件。13.1 逐层 QK-Norm这里也许一个值得注意的亮点是MiniMax-M2 使用了一种所谓的“逐层”per_layerQK-Norm而不是常规的 QK-Norm。仔细查看代码会发现它在注意力机制内部是这样实现的self.q_norm MiniMaxText01RMSNormTP(self.head_dim * self.total_num_heads, eps...)self.k_norm MiniMaxText01RMSNormTP(self.head_dim * self.total_num_kv_heads, eps...)在这里hidden_size等于连接后的头num_heads * head_dim所以 RMSNorm 的缩放向量对每个头以及每个头维度都有不同的参数。所以“per_layer”意味着 RMSNorm用于 QK-Norm如前所述在每个 Transformer 模块中定义与常规 QK-Norm 一样但此外它不是在注意力头之间重用而是每个注意力头都有一个独特的 QK-Norm。模型配置文件还包括一个滑动窗口注意力设置类似于上文中的 Gemma 3但是就像在 Mistral 3.1 中一样它默认是禁用的。除此之外除了逐层 QK-Norm该架构与 Qwen3 非常相似如下图所示。Qwen3 和 MiniMax-M2 的比较13.2 MoE 稀疏度其他有趣的细节如下图所示包括他们不使用共享专家类似于 Qwen3但与 Qwen3-Next 不同。如前所述共享专家是有用的因为它们减少了其他专家之间的冗余。此外从上图可以明显看出MiniMax-M2 的“稀疏度”是 Qwen3 的两倍。也就是说在与 Qwen3 235B-A22B 大致相同的规模下MiniMax-M2 每个词元只有 100 亿而不是 220 亿的激活专家也就是说在 MiniMax-M2 的每个推理步骤中使用了 4.37% 的参数而 Qwen3 使用了 9.36% 的激活词元。13.3 部分 RoPE最后与 MiniMax-M1 类似MiniMax-M2 在注意力模块内部使用“部分”RoPE 而不是常规 RoPE 来编码位置信息。与常规 RoPE 类似旋转是在应用 QK-Norm 之后应用于查询和键的。这里的部分 RoPEPartial RoPE意味着只有每个头的前rotary_dim个通道获得旋转位置编码而剩下的head_dim - rotary_dim个通道保持不变。在官方 M1 的 README 文件中开发者提到旋转位置编码RoPE应用于一半的注意力头维度基频为 10,000,000我们可以将其想象如下Full RoPE: [r r r r r r r r] Partial RoPE: [r r r r — — — —]在上面的概念性插图中“r”表示被旋转位置编码的维度而破折号是未触及的维度。这有什么意义呢在 M1 论文中开发者表示…在 softmax 注意力维度的一半上实现 RoPE可以在不降低性能的情况下实现长度外推。我的推测是这可以防止对长序列特别是那些比训练数据集中最长文档还要长的序列进行“过度”旋转。也就是说这里的理由可能是没有旋转比一个模型在训练中从未见过的“坏”或“过于极端”的旋转要好。读者福利如果大家对大模型感兴趣这套大模型学习资料一定对你有用对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。作为一名老互联网人看着AI越来越火也总想为大家做点啥。干脆把我这几年整理的AI大模型干货全拿出来了。包括入门指南、学习路径图、精选书籍、视频课还有我录的一些实战讲解。全部免费不搞虚的。学习从来都是自己的事我能做的就是帮你把路铺平一点。资料都放在下面了有需要的直接拿能用到多少就看你自己了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以点击文章最下方的VX名片免费领取【保真100%】

网站模板演示怎么做局域网网站架设

分销网站怎么做wordpress 购物插件

财经资讯网站该怎么做推广备案网站服务内容

织梦网站建设案例网上效果代码网站可以下载吗

网站开发怎么做才有利于seo短网址生成原理

芜湖龙湖建设工程有限公司网站巨人科技网站建设

如何用python做一个网站软件技术就业方向

网站模板演示怎么做局域网网站架设

分销网站怎么做wordpress 购物插件

财经资讯网站该怎么做推广备案 网站服务内容

织梦网站建设案例网上效果代码网站可以下载吗

网站开发怎么做才有利于seo短网址生成原理

芜湖龙湖建设工程有限公司网站巨人科技网站建设

如何用python做一个网站软件技术就业方向

财经资讯网站该怎么做推广备案网站服务内容