app 网站建设自己建设个小网站要什么-马鞍山市网站建设公司-Seo优化

app 网站建设,自己建设个小网站要什么,网站建设推广公司,灌南建设局网站作者#xff1a;乞力马扎罗不说话 https://zhuanlan.zhihu.com/p/1978600046514685178这篇博客想法诞生于上半年基于 trl / verl 魔改 agentic rl 时期#xff0c;但拖延一直搁置。眼看相关技术栈演进速度惊人#xff0c;再不发出来就要过气了#xff0c;于是决定抛砖引玉分…作者乞力马扎罗不说话https://zhuanlan.zhihu.com/p/1978600046514685178这篇博客想法诞生于上半年基于 trl / verl 魔改 agentic rl 时期但拖延一直搁置。眼看相关技术栈演进速度惊人再不发出来就要过气了于是决定抛砖引玉分享。预计本系列还会分别基于一线魔改的开发者经验在后续博客中再逐步深入解构代码。本文主要从 Multi-turn Agentic RL 训练效率这一核心问题切入从异步推理亮点设计、长尾样本处理、 offpolicy 缓解以及现有训推加速的复用和改进出发横向对比近半年有代表性的几个工作 AReaL (Ant)、Seer (Moonshot)、Slime (Zhipu) 和 verl (Bytedance) 的设计思路与解决方案。太长不看版本直接点击全面对比和选型思路章节。所有框架几乎都较好复用和集成了 pretrain / inference 端的技巧随着时间演进也在互相集成对方的优秀 feature但各自侧重点有所不同AReaL 的异步推理 Seer 的极致同步再到 Slime 的 MoE 和 verl 的易用性大一统四个框架本质是在不同约束条件下的探索优化。一、Pretrain vs Post-train: MFU to RolloutPretrain 时代训练效率的提升关键是 MFU —— 因为 Scaling Law 中FLOPS 和模型能力之间的关系不可减少的矩阵浮点计算成了瓶颈 (FLOPS)。于是主流 Megatron / FSDP 通过横刀流、纵刀流各并行策略TP/PP/DP、Sequence Parallel、Expert Parallel以及算子融合Ops Fusion、计算通信重叠Overlapping等策略尽可能填满 GPU就能带来整体速度的最大提升。Post-training 时代特别是 GRPO 等算法瓶颈则转移到了 Rollout 时间以及 Rollout / Train 的配合关系。这在 Agentic RL 训练中尤其严重训练中 80% 的时间都发生在 rollout。• Test-time scaling 设置下的 Rollout 极度依赖前一个 action 的生成这种自回归属性导致它几乎无法通过简单的“加卡”来线性加速。• LLM 时代Rollout 本身就是昂贵的 GPU 任务如何设计 train / rollout 两者之间的协同和调度机制成为了新的系统级挑战。二、Agentic RL 三大训练瓶颈Agentic RL 可以分为两类• Single-turn RL例如数学题或单轮交互的工具只对最后结果校验输出形如 [prompt, response]。• Multi-turn Agentic RL模型在一次 Rollout 中需要多轮和环境交互输出作为 Interleaved Context 继续推理。以 ReACT 范式和 append-only context 管理的方式为例输出如 [prompt, action1, obs1, action2, obs2… response]。2025 Q1业界主要还在用 openrlhf, trl 及 verl-1.0 等框架主要支持第一种因此也不需要太多改进。而如果进阶到一般性的 Multi-turn Agentic RL如果不做针对性优化以我们实际训练中的 32B 模型为例Naive 的手搓框架单步时间 1 小时严重拖垮迭代速度。抛开 Scaling up 不谈仅分析 Basic RL 过程我们可以从上图 rollout -train 时间看到核心痛点在于Long context指的是最长任务的 decode 时间• Long CoT 输出Test-time scaling 普遍需要 Long CoT 来激发强推理能力• Long horizon tool call工具轮次数随着任务复杂度上升直线上升Bubble指的是推理中 GPU 空闲等待其他任务完成的空转时间类比于 pretrain 中 pipeline parallel称之为 bubble。• Long-tail Effect 在 GRPO/PPO 中一个 Batch 的结束取决于最长的那条轨迹Longest Trajectory。Agentic 任务的输出长度极不平衡也遵循二八定律频繁触达 Context Window 上限的轨迹往往是不可替代和最有价值的的 Hard Exploration Case。这种 Long-tail Effect 导致同一个 Batch 长短不一显卡持续等待中空转进一步增加了 bubble 占比。Long Call Tool Execution指的是工具从输出到调用环境、通信等一系列时间。• Long Call Tool 的调用代码 Sandbox、数据库轮询、大规模检索不仅耗时而且具有强依赖性后一轮推理依赖前一轮工具的返回结果必须串行执行这部分几乎很难压缩。时间带来 2025 7 月业界为了解决上述问题给出了不同方案从解决思路的演进来看常规思路• 提升推理速度复用 vLLM / SGLang 等 Backend 的极致优化引入 FP8 量化推理使用改进版的 Speculative Decoding (SD)。• 降低总长度通过 Context Manager 压缩历史如 Qwen AgentFold或在训练中混合 Long/Short CoT。未来还可能追求更高效的推理路径。RL 特有思路核心战场• 异步Asynchronous异步推理无论是 replay buffer 还是其他 partial rollout 半异步的设计都是牺牲一定的 On-policy 准度换取极致效率AReaL 的思路比如重走一遍 A3C / A2C 历史、彻底解耦训推策略。• 分离式Disaggregated在架构上直接解耦 rollout / train追求训推平滑切换与零冗余本质上都是 Impala 思想在 LLM 时代的复刻与升级。• 同步Load Balance坚持同步不牺牲 On-policy而是建模为负载均衡任务来消除 bubble 做到零冗余切分任务、全局显存池化来尽可能消除 Bubble 和降低 tail latencySeer 的思路。AReal: Fully AsynchronousAReaL 选择了类似 Impala/A3C 的 Fully Asynchronous 路线。核心哲学既然同步和等待是 Bubble 的根源那就彻底解耦训练和推理再从算法和系统缓解异步引入的 off-policyness。HighlightStream Rollout将 Rollout 和 Train 物理分离。推理侧始终用最新 Policy 不间断生成训练侧持续从 Replay Buffer 取数更新。理论上Bubble 被压缩至近似为 0。这也允许了训推采用异构硬件来降低整体成本如 H800 训练L40s/A10 推理。Staleness-aware PPO异步的代价是 Off-policyness梯度越来越不准。AReal 一方面理论上引入 Decoupled PPO另一方面做好 rollout - train 的相对平衡策略。• Decoupled PPO Objective再次解耦实际行为策略和理论行为策略现在一共有三个策略通过双层 Importance Sampling 修正行为策略与目标策略的梯度偏差从而安全地利用“稍微”过时的数据。• Staleness Control 保证 replay buffer 足够新rollout train优先回放旧样本 (类似 Priorized level replay)同时引入超参 eta 控制允许的最大版本偏差。• Interruptible Generation保证训练端维持 batch sizetrain rollout 为了维持训练端的 Batch Size 稳定当 Replay Buffer 数据不足时系统可以强制挂起长任务、优先产出短任务实现抢占式调度。此外也采用了一些系统的优化做极致加速比如 GPU / CPU 解耦将 reward 计算等 offload 到 CPU 上从而可以和 GPU 运算重叠进行Rollout 时 asyncio 做高并发以及动态内存分配固定最大内存下平衡 micro batch token 数量。Seer: Load Balance核心哲学为了保证推理模型的逻辑严密性坚持 On-policy 同步训练的原教旨主义 A2C 但通过极致的系统工程做负载均衡消除长尾 bubble。HighlightDivided Rollout把长尾 request 切分成更小的 chunk 以 chunk 粒度调度任务灵活填充卡间气泡。• Global KV Cache (Mooncake) Seer 基于 Mooncake 实现了 Disaggregated KV Cache 这一配合使用的核心基建。全局 KV Cache 意味着负载较高的卡上的 request 可以直接迁移到另一张卡无需重复 prefill极大允许了 divided 之后的片段可以在卡间低成本灵活切换。Context-Aware Scheduling 试图通过 prompt 来预测最长的可能生成长度采用 Long-first pool 调度优先处理长任务从实验来看简单的 context-aware 策略效果居然能降低 tail latency 87% divided rollout 反而只能降低 6% 左右。Adaptive Grouped Speculative Decoding (AGSD)传统 SD 需要固定的 Draft Model即便支持了推理使用但在 RL 过程中 Draft Model 会迅速过时导致接受率崩塌等价于串行。Seer 则是采用同组其他生成快 request 构成的 Compressed Suffix Tree 当作慢 request 的 draft model非常巧妙可能会是压缩推理的主要思路。Verl: Hybrid Flowverl (Volcano Engine RL) 拥有目前最发达的开源社区生态 —— 所以除了官方 agent 支持还有 verl-agent 等二次开发工作。官方场外版七月通过 AgentLoop 支持了多轮 Agentic 训练在一个月前的最新版本中也支持了类似的 Fully Asynchronous 和 decoupled PPO 的训练策略在细节上略有差异。这里不再重复基础 RL 训练上的设计优势和异步设计只列出有区别的细节。核心哲学开源、集成、高速迭代Highlight:• AgentLoop• Offpolicy-ness 控制• Staleness Controlverl 采用动态的 staleness_threshold 控制最大允许的旧样本比例staleness_threshold0 时近似同步 0 时允许 Rollouter “抢跑”。例如设置为 0.5表示允许使用滞后不超过 0.5 个 Epoch 的数据。• Partial Rollout / Sleep-Resume类似的允许长任务被打断 sleep 和由下一次策略 resume不浪费一个 token。Slime: Hybrid核心哲学为 MoE 而生轻量级框架追求灵活性。HighlightHybrid ModeSlime 采用了更灵活的机制允许根据不同任务采用同步异步。• Colocated Synchronous 模式适合推理/数学任务减少通信数学证明等对逻辑严密性要求极高的任务需要保证严格 On-Policy• Decoupled Asynchronous 模式适合复杂长执行的 Agent 任务防止环境交互阻塞训练SGLang Native Integration深度绑定 SGLang。这意味着所有 SGLang 社区的优化RadixAttention、Triton Kernels都能第一时间用上。Active Partial Rollouts: 通过超额推理牺牲一部份上下文切换时间降低单 batch latency。比如需要 batch size 32启动 64 个请求当最快的 32 个请求完成时立即终止剩余但保留 KV cache 用于下一个 batch 生成。三、从基建到创新的全面横向对比训推端和调度都采用了 ray并复用了 sglang / vllm 等推理前后引擎相较前一代的 rl 框架都有更好的 scale up 特性。FrameworkOrgPolicy TypeTraining BackendInference BackendOrchestrationAReaLAntOff-policyMegatron / FSDPvLLM / SGLangRaySlimeZhipuHybridMegatronSGLang (Native)RayverlBytedanceHybridMegatron / FSDPvLLM / SGLangRaySeerMoonshotOn-policyMegatronvLLM (Custom)K8s / Ray推理加速的极致复用异步推理的技巧从长尾样本的效率加速看各显神通地采用了不同机制• verl / AReaL (Sleep-Resume)允许长任务被中断Sleep/interupt和下一轮 Resume不浪费 token更适合计算比较贵的场景。• Slime (Active Partial Rollouts): 超额推理通过冗余计算换整体时延的策略更适合推理比较便宜、但 batch 时间要求高的场景。• Seer (Divided Rollout)将长任务切碎利用全局 kvcache 池调度系统利用率最高无计算浪费但对基础设施网络带宽、KV Cache池要求最高。从训推分离后的数据管理 Replay Buffer 设计来看• AReaL(Replay Buffer): 倾向于混合历史数据类似 DQN/IMPALA能带来数据多样性但 Off-policy 程度最重。• Slime (APR Replay Buffer)允许存历史 patial rollout 的片段改进版本 replay buffer。• Verl(FIFO TransferQueue): 倾向于流式处理最新数据更适合 PPO/GRPO 等 On-policy 变种算法。具体选型思路构建复杂长调用 Agent如全网搜索、代码执行、长工具调用适合完全异步换吞吐的 AReaL 或 Slime (Async Mode)用样本量暴力美学弥补 Off-policy 的精度损失。构建严密逻辑推理等场景如 Math/Coding 刷榜需要严格 on-policy适合 Seer (架构参考) 或 verl (同步/半异步模式)。Seer 的全局调度是目前的性能天花板。训练超大规模的 MoE适合 SlimeSGLang Native DeepEP 对 MoE 的支持最为完善。中小团队快速上手/魔改或者初学者学习适合 verl 或者 slimeverl 各个特性集成很完备和均衡开源社区足够活跃后者轻量级代码框架学习性很好。四、如何定义工业级强化学习总结上述框架的演进我认为一个能称之为“工业级”的 Agentic RL 训练框架应该具备以下画像训推分离与灵活切换的同/异步机制原生具备灵活解耦 Rollout/Train 和异步算法同学能简单易用地高速魔改。这都指向了 Ray —— 足够好的分布式计算通用抽象。• 是否采用 Ray• 是否灵活支持同步和异步推理机制• 是否支持 onpolicyness tradeoff• 是否训推分离以及高效的参数切换和同步极致复用推理加速技术• 是否原生集成 vllm / sglang• 是否支持 FP8 和更低精度的量化• 是否支持更适合 moe 的 deepep 和 route replay• 是否支持适配于 RL 训练的投机采样灵活长上下文管理和压缩包括 particial Rollout、全局 KV cache、更通用的上下文压缩机制、以及可暴露灵活魔改的 Context Manager。• 是否针对 long-context 样本做感知和细粒度加速• 是否支持 partial rollout / divided rollout 等灵活多样的推理策略• 是否采用有效的 context manager压缩率如何作为相对通用和底层的算法框架会更加关注前两者而在实际应用场景上做 rollout 长文本压缩和长度均衡显然更直接和有效这仍然需要 task-specific 的 context managecoding / tool using / mcp或比 MCP 协议更省 token 的统一协议有赖于应用团队做更多针对性优化的方案这是另一个话题埋坑。为什么选择训练效率作为切入点从我个人的工程经历来看早年传统 RL 在 OpenAI Gym 时代我一开始用 MPI 手搓分布式训练直到升级到 Ray 以后才体会到系统抽象带来的极大跃升进入 LLM Pretrain 时代也是在趟过 Megatron-LM、DeepSpeed 以及各种显存、精度、混合并行训练的深坑后才算走上正轨。在 Post-training 阶段前期 Infra 的“粮草先行”程度与算法 Co-evolving直接决定了后期算法、数据和策略迭代的速率与天花板。而当下的 RL 开源届还不能完全说有一套高效的、统一的 Infra把 async 推理、long-tail effect、 offpolicyness 平衡的很好相信各大厂内部版或许要更进一步但时间窗口或许不会太久。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

app 网站建设自己建设个小网站要什么

淘宝客单页网站wordpress首页编辑

微网站是什么时候创建的室内装修设计软件免费自学

网站建设官网营销型网站与普通网站的比较

旅游网站开发盈利模式wordpress 主题底部美化

天津网站推广公司哪家好企业网站设计建设

网站建设的知识西安的电商网站设计

app 网站建设自己建设个小网站要什么

淘宝客单页网站wordpress首页编辑

微网站是什么时候创建的室内装修设计软件免费自学

网站建设官网营销型网站与普通网站的比较

旅游网站开发盈利模式wordpress 主题 底部美化

天津网站推广公司哪家好企业网站设计建设

网站建设的知识西安的电商网站设计

旅游网站开发盈利模式wordpress 主题底部美化