网站建设与运营在线考试榆林做网站的公司-马鞍山市网站建设公司-Seo优化

网站建设与运营在线考试,榆林做网站的公司,深圳英文建站公司,WordPress蜘蛛爬行插件文章详细介绍了大模型Agent的强化学习技术#xff0c;特别是基于GRPO的工具使用方法。分析了多种算法#xff08;PPO、GRPO等#xff09;在让大模型使用code interpreter、web search等工具方面的应用#xff0c;并介绍了TORL、ToolRL、OTC等多个研究项目。同时#xff0c…文章详细介绍了大模型Agent的强化学习技术特别是基于GRPO的工具使用方法。分析了多种算法PPO、GRPO等在让大模型使用code interpreter、web search等工具方面的应用并介绍了TORL、ToolRL、OTC等多个研究项目。同时讨论了多轮工具使用的prompt设计、奖励机制设计等关键技术点为读者提供了大模型Agent强化学习的全面技术路线图。DeepSeek R1带火基于GRPO的强化学习技术后agentic tool use learning也开始用上了GRPOReinforce PPO, policy gradient等各种算法了以前是SFTDPO需要大量的标注数据来cover bad case当时标注高质量数据都把我标哭了想让大模型学会使用code interpreter web search等工具来增强现有模型的数学和推理能力单轮就是调用一次tool多轮就是调用多次tools 多轮tool use更难一点主要是数据难以获取和建模方式MDP这种只考虑当前状态的训练模式还是使用full history考虑所有的状态的模式不清晰tool-use rl也算是一个新的研究方向了潜力还有待挖掘。最近的工作还是集中设计这个multi turn tool-use的prompt template以及训练的时候需要设计rule based reward(correctness reward, format reward, tool execcution rewad等) 训练的tool output的mask操作sampling的时候加入异步并行融入megatron的pipeline parallel加入多模态信息等等训练的范式基本是先收集一波expert trajectory做sft然后使用rl训练例如ReTool或者直接应用RL例如TORLToolRLOTC等目前还没有出现一个真正为agent rl设计的方法都是复用现有的基建比如verl open-rlhf, trl, ms-swift做了一些拓展。最近在tool-use的基础上还出现了一个tool integrated reasoning, 跟cot的区别就是在推理的过程中会使用工具这样推理过程动态的添加了searchcode各种定制化的API的输入推理能力得到了进一步的增强。市面上对这个方向的文章比较少我结合自身阅读论文和实践的经历分享一下共同推动这个领域的研究。有的人会好奇这个agent的tool use的prompt该怎么写如下示例这是一个包含了chat template的tool prompt具体包括chat template, tool schema, tool call, tool response等等, system prompt一般写tool schema信息assistant是模型的响应thinking过程包含在中tool调用的参数包含在/tool_call中tool执行的response放在user响应中包括在/tool_response标签中|im_start|systemIn this environment you have access to a set of tools you can use to assist with the user query. You may perform multiple rounds of function calls. In each round, you can call one or more functions. Here are available functions in JSONSchema format: \json tool_schema \In your response, you need to first think about the reasoning process in the mind and then conduct function calling to get the information or perform the actions if needed. The reasoning process and function calling are enclosed within think /think and tool_call /tool_call tags. The results of the function calls will be given back to you after execution, and you can continue to call functions until you get the final answer for the users question. Finally, if you have got the answer, enclose it within \boxed{} with latex format and do not continue to call functions, i.e., think Based on the response from the function call, I get the weather information. /think The weather in Beijing on 2025-04-01 is \[ \boxed{20C} \]. For each function call, return a json object with function name and arguments within tool_call/tool_call XML tags: tool_call {name: function-name, arguments: args-json-object}/tool_call|im_end||im_start|userUser 1 wants to return all books by Jane Doe they have checked out. Each book is 5 days overdue, what is the total late fee?|im_end||im_start|assistantthink First, I need to find out which books by Jane Doe the user has checked out. Then, I will calculate the late fee for each book based on the number of days it is overdue. /thinktool_call {name: get_user_checked_out_books, arguments: {user_id: 1}}/tool_calltool_call{name: search_books_by_author, arguments: {author: Jane Doe}} /tool_call|im_end||im_start|usertool_response {name: get_user_checked_out_books, arguments: {user_id: 1}}[Python Basics, Advanced Python, Data Structures] /tool_responsetool_response {name: search_books_by_author, arguments: {author: Jane Doe}}[{title: Python Basics, author: Jane Doe, copies_available: 3}, {title: Advanced Python, author: Jane Doe, copies_available: 0}] /tool_response|im_end||im_start|assistantthink ... ...agents rl的兴起让很多做基于agents做落地应用的人看到了希望说一下agents rl的优点• 可以直接通过tool交互获取外部知识进一步提升模型的准确率。• DPO是一个数据驱动的方法需要大量的数据进行训练DPO吸收了对比学习的一些思想所以训练好很不容易。PPO系列的方法是一个online-rl的方式每次通过sampling的方式生成样本然后进行训练提升需要的数据量比DPO要小很多。说了一下agents rl的优点我也聊一下agents rl的不足。• 真正复杂的任务可能需要几十个步骤才能完成受限于LLM处理长序列效果下降长序列后计算效率低等原因现有的rl框架还是集中在10个step左右就能完成的任务真实的任务往往需要30-100个step才能解决所以距离真正能解决复杂的问题还有一段的距离。• grpo虽然是rule based的方法简化了流程但还是需要标注数据加上精心设计reward最后还要调参调数据才能得到一个不错的效果。• rl需要依赖环境进行训练一般是一些仿真环境它的速度肯定不如gpu的计算速度快能够加速env跟得上rl训练的步伐也是一个需要值得考虑的问题。• agent rl研究的单一的工具居多比如code interpreter-only, web search-only等等多个工具混合多轮调用研究的少一点。有人会对这几个rl算法分不清我来简要的梳理一下• PPO 把生成的每个token当成一个action对模型的每个输出进行监督这个过程使用的是value model/critic model完成的loss上加上了裁剪机制限制策略的更新幅度避免模型学偏.•GRPO:GRPO是PPO的改进版不依赖于value network通过生成同一个样本的多个输出然后计算每个输出的奖励与组内平均奖励的差值然后使用KL散度来约束模型与reference model的偏离程度。•REINFORCE: 在基础的REINFORCE基础上增加历史基线机制比如用过去多个batch的average reward作为当前的基线避免单一的batch的波动的影响。此外还有RLOOREMAX policy gradient等算法有兴趣的话可以相关的资料学一下RL有个特点理论都比较长晦涩难懂放到代码里面就几行简单的代码。DeepSeek 技术分析说到RL技术不得不提一下前段时间很火的deepseek底层技术效果也比较惊艳比如deepseek v3在大部分指标上超过了闭源模型gpt-4o,deepseek-r1也在大部分指标上超过了o1开源模型能做到这么优秀简直不可思议还打乱了许多AI公司的闭源路线的规划辛苦构建的壁垒一夜就没了。我总结了一下DeepSeek-R1和V3所用到的技术• Mixture-of-Experts: 降低了训练成本并提高了推理效率。• Multi-Head Latent Attention: 减少了注意力部分的 KV 缓存. Low rank。• Multi-Token Prediction: 提高了模型的性能准确性。• DualPipe: 提高了大规模GPU集群的计算与通信比率和效率。• FP8 Training: 通过采用这种低精度训练进一步降低了训练成本。• DeepSeek-R1强化学习GRPO与多阶段训练这些技术就不详细展开了市面上解读这些论文的文章也有一大堆其中GRPO带火了RL的技术路线它跟PPO的区别就是advantage(降低方差用的)是sampling过程产生的样本的reward求均值方差得到的, 因为跟ppo差别很小所以在开源的代码在实现ppo的时候顺带GRPO就实现了GRPO虽然只需要rule-based reward但是你需要根据经验设计这个reward对于喜欢调参的人员当然是好事对于想偷懒的人士就不太友好TORL: Scaling Tool-Integrated RL论文https://arxiv.org/abs/2503.23383代码https://github.com/GAIR-NLP/ToRL这篇论文介绍了ToRL工具集成强化学习这是一个用于训练大型语言模型LLM的框架通过强化学习自主使用计算工具。与监督微调不同ToRL允许模型探索和发现工具使用的最佳策略。Qwen2.5-Math模型的实验显示了显著的改进ToRL-7B在AIME~24上的准确率达到43.3%比没有工具集成的强化学习高14%比现有的最佳工具集成推理TIR模型高17%。进一步的分析揭示了新兴行为如策略工具调用、无效代码的自我调节以及计算和分析推理之间的动态适应所有这些行为都纯粹是通过奖励驱动的学习产生的。训练使用VERL GROP算法rollout batch size 128, 16 samples, 未使用KL loss temperature为1. Qwen2.5-7B模型。TORL在数据集的构造中使用了LIMR抽取高质量的样本均衡难样本的分布本来有75,149筛选后得到28,740条数据为了使模型能够使用代码块自动输出推理TORL使用了如下所示的prompt。在模型的推出过程中当检测到代码终止标识符“output”时系统会暂停文本生成提取最新的代码块以供执行并将结构化执行结果以“output\nOBSERVATION\n”格式插入上下文中其中OBSERVATION是执行结果。然后系统继续生成后续的自然语言推理直到模型提供最终答案或生成新的代码块。值得注意的是当代码执行失败时故意向LLM返回错误消息因为假设这些错误诊断增强了模型在后续迭代中生成语法和语义正确代码的能力。A conversation between User and Assistant. The user asks a question, and the Assistant solves it.\nUser:Please integrate natural language reasoning with programs to solve the problem above, and put your finalanswer within \boxed{}.\nprompt\nAssistant:Design Choices of ToRLTool Call Frequency Control: rollout期间的工具集成会引入大量GPU空闲时间rollout速度与工具调用频率成反比。为了保持合理的训练效率本文引入了一个超参数C表示每次响应生成允许的最大工具调用次数。一旦超过此阈值系统将忽略进一步的代码执行请求迫使模型切换到纯文本推理模式。Execution Environment Selection: 为了平衡培训效率和有效性我们寻求一个稳定、准确和响应迅速的代码解释器实现。经过调研和测试最终选择了Sandbox Fusion2它提供了一个隔离的执行环境。尽管延迟稍高但它为持续训练操作提供了卓越的稳定性。Error Message Processing: 实施了特定的错误处理优化以提高训练效果。当Sandbox Fusion遇到执行错误时它会生成包含不相关文件路径信息的详细回溯。为了减少上下文长度并仅保留相关的错误信息只提取最后一行错误消息例如NameError name ‘a’ is not defined。Sandbox Output Masking: 在损失计算过程中从sandbox environment中屏蔽了OBSERVATION输出通过防止模型试图记忆特定的执行输出而不是学习可推广的推理模式显著提高了训练稳定性。Reward Design: 实现了一个基于规则的奖励函数正确答案获得1的奖励错误答案获得-1的奖励。此外代码解释器自然会提供关于代码可执行性的反馈。基于成功执行代码和解决问题准确性之间的相关性引入了一种基于执行的惩罚包含不可执行代码的响应会减少-0.5的奖励。更多详细内容请参考论文ToolRL: Reward is All Tool Learning Needs论文https://arxiv.org/abs/2504.13958当前的大型语言模型 (LLM) 通常需要进行监督微调 (SFT) 来获得工具使用能力。然而SFT 难以推广到不熟悉或复杂的工具使用场景。强化学习 (RL) 领域的最新进展尤其是类似 R1 的模型已经展现出良好的推理和泛化能力。然而针对工具使用的奖励设计面临着独特的挑战多个工具可能以不同的参数调用而粗粒度的奖励信号例如答案匹配无法提供有效学习所需的细粒度反馈。在本研究中ToolRL全面研究了 RL 范式中工具选择和应用任务的奖励设计。系统地探索了各种奖励策略分析了它们的类型、规模、粒度和时间动态。基于这些见解我们提出了一种针对工具使用任务量身定制的原则性奖励设计并将其应用于使用组相对策略优化 (GRPO) 的 LLM 训练。在不同基准测试中的实证评估表明ToolRL能够实现稳健、可扩展且稳定的训练相比基础模型提升了 17%相比 SFT 模型提升了 15%。这些结果凸显了精心设计的奖励机制在提升 LLM 的工具使用能力和泛化性能方面的关键作用。为了确定最佳奖励策略探索了四个关键维度的各种奖励配置• 1 奖励类型奖励哪些方面• 2 奖励尺度奖励多少• 3 奖励粒度奖励信号的详细程度• 4 奖励动态奖励如何随时间演变。通过大量的实验确定了最符合主体工具使用情况的奖励设计并揭示了奖励对于调用工具的 LLM 而言“有用”的原因。论文得出的核心见解总结如下• 推理轨迹越长并不一定越好而且过长的奖励可能会降低性能。• 动态奖励尺度有助于模型从简单行为平稳过渡到复杂行为。• 细粒度的奖励分解可实现更稳定、更有效的学习。基于规则的奖励机制已展现出强大的实证效果并被广泛采用。ToolRL同样采用了一种结合结构性和基于正确性的奖励公式这与先前的研究一致。具体而言格式奖励评估模型输出是否符合预期的结构包括想法、工具调用和响应而正确性奖励则评估工具调用的准确性。形式上整体奖励 R final(·) 分解为两个部分R format R correct每个部分的具体描述如下:Format Reward: 奖励格式 Rformat ∈ {0, 1} 检查模型输出是否按照基本事实指定的正确顺序包含所有必需的特殊tokenCorrectness Reward: 正确性奖励 Rcorrect ∈ [−3, 3]用于评估预测的工具调用 P {P1, …, Pm} 与真实调用 G {G1, …, Gn}。它包含三个部分ToolName Matching, Parameter Name Matching, Parameter Content Matching 具体就不详细展开了都是一些格式检查的评判细则贴了主要的公式.训练采用的是GRPO的方法verl训练框架基座模型使用的是llama3.2和qwen模型详细就不展开了有兴趣请参考论文。RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning论文https://arxiv.org/abs/2504.20073代码https://github.com/RAGEN-AI/RAGEN将大型语言模型 (LLM) 训练为交互式智能体面临着独特的挑战包括长期决策以及与随机环境反馈的交互。虽然强化学习 (RL) 在静态任务中取得了进展但多轮智能体 RL 训练仍未得到充分探索。论文提出了 StarPO状态-思考-行动-奖励策略优化这是一个用于轨迹级智能体 RL 的通用框架并介绍了 RAGEN一个用于训练和评估 LLM 智能体的模块化系统。本研究有三个核心发现。首先智能体 RL 训练呈现出一种反复出现的“回声陷阱”模式其中奖励方差出现断崖式下降梯度出现峰值使用 StarPO-S 来解决这个问题这是一个稳定的变体具有轨迹过滤、评价器合并和解耦裁剪功能。其次多样化的初始状态、中等交互粒度和更频繁的采样将有利于 RL 部署的形成。第三如果没有细粒度的、推理感知的奖励信号agent推理就很难通过多轮 RL 出现并且它们可能会表现出浅薄的策略或幻觉的想法。分析了agents学习的三个关键维度并总结了以下发现揭示了稳定agent RL 训练的核心挑战和设计原则多轮强化学习中的梯度稳定性是稳定训练的关键。多轮强化学习训练经常导致一种反复出现的不稳定模式即“echo trap”即agent过拟合局部奖励推理模式其特征是奖励方差崩溃、熵下降和梯度尖峰。为了缓解这种失效模式本文提出了 StarPO-S它通过基于方差的轨迹过滤、Critic 基准测试和解耦裁剪来提高学习鲁棒性。部署频率和多样性塑造自我进化。在基于强化学习的agent训练中LLM 自生成的部署轨迹被用作核心训练材料。确定了agent强化学习稳定训练的关键部署因素• (1) 确保部署来自多样化的提示集每个提示有多个响应• (2) 每轮执行多个操作以在固定的轮次限制内改善交互范围• (3) 保持较高的部署频率以确保在线反馈反映当前策略。新兴智能体推理需要细致的奖励信号。仅仅鼓励动作形式的推理并不能保证推理行为的发生。即使通过 StarPO 进行轨迹级优化模型被提示进行推理例如使用“”标记如果推理没有带来明显的奖励优势它们也常常会退回到直接动作选择。推测这是由于 MDP 中的动作空间简单浅层策略就足够了。此外当奖励仅反映任务成功时模型会产生幻觉推理从而揭示思维与环境状态之间的不匹配。这些问题凸显了强化学习中对细粒度、推理感知的奖励信号的需求以便进行长远智能体训练。如下图先前的方法侧重于非交互式任务例如数学或代码生成。RAGEN 实现了 StarPO这是一个通用的agent强化学习框架支持多轮部署、轨迹级奖励分配和策略更新适用于需要多轮随机交互的agents任务。如下图状态-思考-行动-奖励策略优化 (StarPO) 框架。LLM 为与环境的多轮交互生成推理引导的动作并累积轨迹级奖励这些奖励经过归一化后用于更新 LLM 策略。StarPO状态-思考-行动-奖励策略优化是一个通用的强化学习框架旨在优化 LLM agent的完整多轮交互轨迹。与以往针对静态任务单独处理每个动作的方法不同StarPO 将整个轨迹包括观察、推理轨迹、行动和反馈视为一个连贯的单元用于部署和模型优化。其目标是最大化预期轨迹奖励在每次训练迭代中agent从初始状态 0开始并生成条轨迹。在每一步 agent都会生成一个推理引导的结构化输出其中是包含中间推理的完整动作输出是环境可执行的子动作。环境随后返回下一个状态 1 和奖励。rollout 阶段生成完整轨迹 { 0, 0, 0, 1, …, −1, −1, }其中每个组件均由 LLM 生成或由环境诱导并将进行联合优化。StarPO 交错执行 rollout 和更新步骤。新的 rollout 可以使用基于策略生成也可以从 old 下的重放缓冲区中采样。每个训练循环包含个初始状态 0每个状态生成条轨迹并以批量大小执行更新总共次循环。这导致总梯度步数 · · / 。算法使用的是PPO和GRPO,模型使用的是qwen-0.5b-instruct用的是verl框架为了将 StarPO 付诸实践构建了RAGEN这是一个用于在受控环境中训练 LLM agent的完整系统。RAGEN 支持结构化部署、可自定义的奖励函数并可与多轮随机环境集成。它既可以作为 StarPO 的执行后端也可以作为研究推理agent训练过程中稳定性、泛化能力和学习动态的平台。RAGEN 的设计具有模块化和可扩展性新的环境、奖励方案或部署策略可以轻松插入到训练循环中为基于强化学习的agents训练分析奠定基础。论文还在实验部分采用了DAPO提到的稳定性方法clip-higher和remove kl term在Sokoban and Frozen Lake两个任务上做的实验不太常见的任务。想了解更多信息请参考论文OTC: Optimal Tool Calls via Reinforcement Learning论文https://arxiv.org/abs/2504.14870工具集成推理 (TIR) 增强了大型语言模型 (LLM) 的能力使其能够调用外部工具例如搜索引擎和代码解释器从而解决纯语言推理能力所无法解决的任务。虽然强化学习 (RL) 已展现出通过优化最终答案正确性来提升 TIR 的潜力但现有方法往往忽视了工具使用相关的效率和成本。这可能导致行为不理想例如过度调用工具会增加计算和财务开销或使用工具不足会影响答案质量。本文提出了基于最优工具调用控制的策略优化 (OTC-PO)这是一个简单而有效的基于强化学习的框架它鼓励模型以最少的工具调用生成准确的答案。OTC引入了一种工具集成奖励机制该机制同时考虑了正确性和工具效率从而提高了工具的生产力。框架实例化的 OTC-PPO 和 OTC-GRPO在多个 QA 基准测试中使用 Qwen-2.5 和 Qwen-Math 进行的实验表明在保持相当准确率的同时将工具调用次数减少了高达 73.1%并将工具效率提高了高达 229.4%。OTC-PO是一种简单而有效的基于强化学习 (RL) 的方法它使大型语言模型 (LLM) 能够学习对外部工具使用的精确且自适应的控制。OTC-PO 训练模型以优化达到正确解决方案所需的工具调用次数从而在不牺牲准确性的情况下降低训练和推理成本。为了实现这一目标本文引入了一种工具集成奖励机制它通过一个反映工具效率的缩放系数来调节传统的奖励信号例如正确性。这鼓励模型优先考虑需要较少工具调用次数的正确答案。OTC-PO将优化目标从单纯的正确性转变为工具生产力后者定义为任务收益例如答案准确率与工具使用成本例如工具调用次数之间的比率。 OTC-PO 轻量级且应用广泛只需对标准强化学习流程进行少量修改仅需几行代码即可轻松应用于现有系统。在两种常用工具模式下做了实验网页搜索和代码执行。使用多个 LLM包括 Qwen-2.5-3B/7B-Base 和 Qwen2.5-Math-1.5B/7B-BaseOTC-PO 显著减少了推理轨迹过程中的工具调用次数同时保持了与传统方法相当的准确率。论文提到的贡献如下• 率先实现了以下目标i) 系统地通过强化学习解决工具效率问题而这个问题在先前的研究中往往被忽视ii) 识别了LLM的TIR中的认知卸载现象iii) 引入了工具生产力的概念来衡量TIR的有效性和效率。• 提出了一种简单、可扩展且可泛化的OTC-PO算法以鼓励模型使用最优工具调用来解决问题并最大化工具生产力。该算法建立在一个基本观察之上即每个问题和模型对都存在一个最优的工具调用次数。该算法与各种强化学习算法兼容并且只需少量代码更改即可轻松实现。• 将OTC-PPO和OTC-GRPO作为两种典型方法实现同时保持了其适应性和泛化能力。在多个基准测试和基线上的实验结果表明在保持域内和域外评估的大部分准确率的同时工具调用成本显著降低。grpo和ppo都比较常规看一下reward的设计使用的是余弦函数还挺特别的OTC-PPO的tool reward的设计OTC-GRPO的tool reward的设计Tool-integrated Reward Design.论文的主要目标是减少tool call的调用并不是刷sota有点可惜其他细节就不详细展开了有这个需求的读者可以参考论文。SkyRL-v0: Train Real-World Long-Horizon Agents via Reinforcement Learninghttps://novasky-ai.notion.site/skyrl-v0https://github.com/NovaSky-AI/SkyRL大多数现有的强化学习框架都针对涉及短期无状态交互的任务进行了优化例如搜索增强推理或简单的代码执行。相比之下像 SWE-Bench 中所示的真实世界任务则受益于在有状态的动态环境中进行长期规划。这给基础设施和训练算法都带来了新的挑战。强化学习的最新进展使语言模型能够成为主动 agents。近期的开源框架例如 Search-R1 和 ToRL基于 VeRL 构建在这方面取得了令人瞩目的进展实现了多轮强化学习并能够交叉使用单一工具例如搜索或代码执行。这些系统为工具增强推理奠定了重要的基础。然而诸如 SWE-Bench、WebDev 和 Web 浏览等复杂的现实世界任务需要高级agents能力其中模型需要调用多个工具、编写和运行测试、响应环境反馈并执行长期规划。虽然这些更先进的智能体标志着令人兴奋的进化但在它们上运行在线强化学习却极具挑战性。首先高效的训练框架需要快速的环境执行和高效的环境交互部署。其次有效的训练需要强大的long horizon算法而非本博客的重点。总而言之这使得问题比训练先前的工具增强推理LLM复杂得多。本文引入了 SkyRL——在 VeRL 和 OpenHands 之上构建的、用于在复杂环境中执行长期任务的多转工具使用 LLM 的 RL 训练流程包括 SWE-Bench。SkyRL 功能• 支持训练 LLM agent使其能够执行具有复杂环境交互的多步骤计划。• 通过异步并行运行在轨迹之间重叠计算密集型和环境交互密集型阶段实现高吞吐量生成相比基准实现速度提升 4-5 倍。• 预填充并扩展的 RL 算法方便快速入门。SkyRL建立在VeRL之上继承了其对学习算法的丰富支持。SkyRL通过引入agents层扩展了VeRL1高效的异步多轮rollouts2通用工具使用以及3通用和可扩展的环境执行。Group-in-Group Policy Optimization for LLM Agent Training基于群组的强化学习 (RL) 的最新进展推动了大型语言模型 (LLM) 在数学推理等单轮任务中的应用。然而它们在长期 LLM agent训练中的可扩展性仍然有限。与静态任务不同agents与环境的交互会跨越多个步骤展开并且通常会产生稀疏或延迟的奖励这使得跨各个步骤的信用分配变得更加具有挑战性。本研究提出了一种新颖的强化学习算法——群组策略优化 (GiGPO)它能够为 LLM agents实现细粒度的信用分配同时保留了基于群组的强化学习的诸多优势无评判、低内存和稳定收敛。GiGPO 引入了一种用于估计相对优势的两级结构• (i) 在episode级别GiGPO 基于完整轨迹组计算宏观相对优势• (ii) 在步骤级别GiGPO 引入了一种锚定状态分组机制该机制通过识别跨轨迹的重复环境状态来追溯构建步骤级别的组。源自同一状态的操作被分组在一起从而实现微观相对优势估计。这种分层结构能够有效地捕捉全局轨迹质量和局部步骤有效性而无需依赖辅助模型或额外的部署。GiGPO使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct在两个具有挑战性的agents基准测试 ALFWorld 和 WebShop 上对 GiGPO 进行了评估。至关重要的是GiGPO 提供了细粒度的每步信用信号并且在 ALFWorld 上实现了 12% 的性能提升在 WebShop 上实现了 9% 的性能提升相比 GRPO 基准测试GiGPO 的性能提升同样显著同时保持相同的 GPU 内存开销、相同的 LLM 部署并且几乎不产生额外的时间成本。如下图agents与一组以相同状态初始化的环境交互以生成一组轨迹 {τi}Ni1。相同颜色的状态代表相同的环境状态。GiGPO 执行二维组计算episode level AE 和step level AS以产生用于指导细粒度策略优化的分层相对优势。具体细节我就不展开了就是在rollout阶段做了一些细粒度的优化不过作者开源了基于verl的代码有兴趣可以试一下。论文https://arxiv.org/abs/2505.10978代码https://github.com/langfengQ/verl-agentNemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning利用外部工具赋能大型语言模型已成为将其功能扩展到文本生成任务之外的关键策略。先前的研究通常通过以下方式增强工具的使用能力应用监督微调 (SFT) 来确保工具调用的正确性或从更强大的模型中提炼推理轨迹以实现 SFT。然而这两种方法都存在不足要么完全忽略推理要么产生限制泛化的模仿推理。受 DeepSeek-R1 通过基于规则的强化学习成功引出推理的启发本文提出了 Nemotron-Research-Tool-N1。Nemotron-Research-Tool-N1 并非严格监督从更强大的模型中提炼出的中间推理轨迹而是通过二元奖励进行优化该奖励仅评估工具调用的结构有效性和功能正确性。这种轻量级的监督机制使模型能够自主地内化推理策略而无需带注释的推理轨迹。在 BFCL 和 API-Bank 基准上进行的实验表明基于 Qwen-2.5-7B/14B-Instruct 构建的 Nemotron-Research-Tool-N1-7B 和 Nemotron-Research-Tool-N1-14B 取得了最先进的结果在两项评估中均优于 GPT-4o。Nemotron-Research-Tool-N1Tool-N1训练流程概览如下图。从包含用户query和候选工具的标准SFT工具调用数据开始训练LLM使其使用GRPO算法中的二元奖励函数进行结构化推理和工具调用。由于监督仅针对格式和工具调用的正确性因此训练过程不需要精心策划的推理轨迹。Data Preparation过滤掉包含无效工具调用的样本特别是那些涉及候选工具列表中缺失工具的样本标准化数据集。从系统提示中提取可用工具并将候选工具和真实工具调用解析为结构化字典格式。JSON 解析失败或包含格式不一致的实例将被丢弃。这种预处理过程生成了一个干净且一致的数据集适用于强化学习。对于来自 ToolACE 子集的多轮数据进一步将每个轨迹细分为多个单步预测实例把多轮拆成多个单轮复用现有的infra其中每个实例包含一个目标工具调用并将前面的步骤视为上下文。使用GRPO训练根据这些上下文信息和提供的工具来预测每个工具调用步骤。Thinking Template采用轻量级的提示模板来从 LLM 中引出工具调用如下图所示。该提示明确指示模型在 … 标签内生成中间推理然后在 …/tool_call 标签内进行工具调用。此模板背后的设计理念是尽量减少对过于严格的格式规则的依赖从而降低过度拟合特定提示模式的风险。通过赋予模型更大的推理表达灵活性目标是促进模型在不同工具使用场景中实现更稳健的泛化。此外在训练过程中使用这种轻量级的提示设计使生成的模型能够更容易地与更复杂的提示策略集成。Reward ModelingFormate Checking训练过程中加入了格式检查以验证模型的输出是否符合预期的结构规范——具体来说推理过程是否包含在 … 标签中工具调用是否正确包含在 …/tool_call 标签中。这种结构约束鼓励模型在工具调用之前进行明确的推理而不是快速得出最终答案。通过强制遵循格式旨在培养模型的内在推理能力这可能有助于提升泛化能力——尤其是在处理分布外的输入时。Tool-Calling Checking 检查工具调用本身的正确性。工具调用输出被解析为字典以便与真实调用进行精确匹配。这包括检查预测的工具名称是否与真实调用匹配以及所有必需的参数是否都具有正确的值。这种严格的匹配标准确保模型能够学习生成功能精确且可执行的工具调用。与 SFT 中的下一个标记预测逻辑相比这种基于字典的匹配带来了更大的灵活性。它允许参数顺序变化而不会受到惩罚从而鼓励模型专注于工具调用的底层语义而不是停留在表面记忆。这种设计有助于更深入地理解工具的使用并支持更好的泛化。很好的一篇来自nvidia的实践文章详细信息请参考论文https://arxiv.org/abs/2505.00024Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning大型语言模型 (LLM) 在复杂推理任务中取得了显著进展然而它们仍然受到对静态内部知识和纯文本推理的依赖这从根本上限制了它们的发展。现实世界的问题解决通常需要动态、多步骤推理、自适应决策以及与外部工具和环境交互的能力。本文引入了 ARTIST自改进 Transformers 中的agent推理和工具集成这是一个统一的框架它将agentic推理、强化学习和 LLM 的工具集成紧密结合在一起。ARTIST 使模型能够自主决定在多轮推理链中何时、如何以及调用哪些工具利用基于结果的强化学习来学习强大的工具使用和环境交互策略而无需步骤级监督。在数学推理和多轮函数调用基准测试中进行的大量实验表明ARTIST 的性能始终优于最先进的基线模型与基础模型相比其绝对性能提升高达 22%并且在最具挑战性的任务中取得了显著的进步。详细的研究和指标分析表明agentic强化学习训练能够带来更深层次的推理、更高效的工具使用和更高质量的解决方案。在 ARTIST 中rollout 在模型生成的推理步骤和工具输出之间交替进行从而捕捉agents与外部工具和环境的交互。统一应用 token 级损失会导致模型模仿确定性工具输出而不是学习有效的工具调用策略。为了防止这种情况发生ARTIST采用了一种损失掩蔽策略在损失计算过程中工具输出中的 token 会被掩蔽确保梯度仅通过模型生成的 token 传播。这将优化重点放在agent的推理和决策上同时避免来自确定性工具响应的虚假更新。ARTIST 架构图如下。通过交织基于文本的思维、工具查询和工具输出来实现agentic推理从而在统一框架内实现推理、工具使用和环境交互的动态协调。ARTIST 方法论概述如下图。该框架阐述了推理如何在内部思考、工具使用和环境交互之间交替进行并以基于结果的奖励来指导学习。这使得模型能够通过强化学习迭代地完善其推理和工具使用策略。Rollouts in ARTIST在 ARTIST 中rollout 的结构设计为在内部推理和与外部工具或环境的交互之间交替进行。与仅由模型生成的 token 组成的标准 RL rollout 不同ARTIST 采用迭代框架其中 LLM 将文本生成与工具和环境查询交织在一起。 Prompt Template: A RTIST 使用结构化的提示模板将输出分为四个部分• (1) 内部推理 (…)• (2) 工具或环境查询 (…/tool_name)• (3) 工具输出 (…)• (4) 最终答案 (…)发出工具查询后模型会调用相应的工具或环境附加输出并继续推理循环直到得出答案。 Rollout Process: 每次rollout都由这些结构化片段组成策略模型在每个步骤中决定是进行内部推理还是与外部资源交互。工具调用可能包括代码执行、API 调用、Web 搜索、文件操作或在交互环境例如 Web 浏览器或操作系统中的操作。这些交互的输出会被重新整合到推理链中从而实现基于反馈的迭代改进和自适应策略调整。Reward Design精心设计的奖励函数对于有效的强化学习训练至关重要因为它提供了优化信号引导策略朝着理想的行为发展。在 GRPO 中基于结果的奖励已被证明既高效又有效无需密集的中间监督即可支持稳健的策略改进。然而ARTIST 为奖励设计带来了新的挑战除了得出正确的最终答案之外模型还必须以连贯可靠的方式构建其推理、工具使用和环境交互。为了解决这个问题ARTIST使用了一种复合奖励机制可以为每次部署提供细粒度的反馈。ARTIST 中的奖励函数由三个关键部分组成Answer Reward: 当模型生成正确的最终答案如 … 标签中所示时该组件会分配正向奖励。答案奖励直接激励模型正确解决任务确保推理过程的最终目标得以实现。Format Reward: 为了促进结构化和可解释的推理ARTIST引入了格式奖励鼓励遵守规定的提示模板。该奖励检查两个主要标准• (1) 在整个部署过程中执行顺序——推理 ()、工具调用 () 和工具输出 () 是否保持正确• (2) 最终答案是否正确地包含在标签中。格式奖励有助于模型学习以一致且易于解析的方式组织其输出这对于可靠的工具调用和下游评估至关重要。Tool Execution Reward: 在每次工具交互过程中模型的查询可能格式正确或可执行也可能不正确。为了鼓励稳健有效的工具使用ARTIST引入了工具执行奖励定义为成功工具调用的比例:Tool Exection Reward Tool success / Tool total其中 Tool success 和 Tool total 分别表示成功调用工具的次数和总调用次数。此奖励确保模型学习生成语法正确且可在目标环境中执行的工具查询。ARTIST使用的是GRPO方法训练模型用的是Qwen2.5 7b和14b, 框架用的是verl然后分别针对复杂数学推理和多轮function calling设计了reward函数详细请参考论文https://arxiv.org/abs/2505.01441Agent RL Scaling Law: Spontaneous Code Execution for Mathematical Problem Solving大型语言模型 (LLM) 通常在需要精确、可验证计算的数学推理任务中举步维艰。虽然基于结果的奖励的强化学习 (RL) 可以增强基于文本的推理能力但理解智能体如何自主学习利用代码执行等外部工具仍然至关重要。本文研究了基于结果的奖励的强化学习并将其应用于工具集成推理 (ZeroTIR) 训练基础 LLM使其能够在没有监督工具使用示例的情况下自发生成并执行用于数学问题的 Python 代码。具体而言训练步数的增加会导致自发代码执行频率、平均响应长度以及至关重要的最终任务准确率的提高。这表明投入到训练中的计算工作量与有效的工具增强推理策略的出现之间存在可量化的关系。实现了一个具有解耦代码执行环境的稳健框架并在标准 RL 算法和框架中验证了我们的发现。实验表明ZeroTIR 在具有挑战性的数学基准测试中显著超越了非工具 ZeroRL 基线。基于现有工具功能基于微调模型的强化学习会掩盖一些重要的发现。与基于 SFT 之后模型的强化学习类似很难观察到响应长度与性能之间的关系。本文旨在提供更全面、更清晰的分析以促进社区研究和“agent rl scalling law”的复现。展示了使用主流社区框架Open-Reasoner-Zero、OpenRLHF和流行的强化学习算法PPO、Reinforce 以及环境服务器进行的详尽实验。研究了从基础模型初始化的 LLM 如何通过强化学习自发学习利用 Python 代码执行环境。论文的核心假设是利用这种工具的学习过程遵循可识别的模式将其称为“Agent RL Scaling Law”。• 识别并描述了新的 Agent RL 扩展定律该定律控制着 ZeroTIR 中自发代码执行技能的自主习得用于数学推理。• 提出并实现了一个有效的框架 ARL用于训练基础 LLM以自发地利用代码执行该框架可以在社区主流的 RL 训练框架上快速启用。• 实证验证表明使用 ZeroTIR 训练的 ZTRL 模型在具有挑战性的数学基准测试和基于 SFT 的 TIR 方法上显著优于非工具性 ZeroRL 基线。ZeroTIR 通过强化学习训练基础 LLM使其能够自主利用 Python 代码执行环境进行数学问题求解。主要采用策略梯度算法例如 PPO 和 REINFORCE 变体例如 Reinforce。首先ZeroTIR引入了重放缓冲区过滤机制以增强稳定性并集中学习。针对同一提示生成的多个响应被分组并计算其最终答案准确率基于结果奖励。过滤掉准确率高于高阈值 0.8 或低于低阈值 0.2 的组优先考虑学习梯度可能最有利的中间范围内的样本。其次ZeroTIR实现了一种高效的交互机制用于在部署期间自发执行代码如图 3 所示该方法利用动态停止token例如“python”“”来迭代管理推理、代码生成、与外部代码环境的交互以及执行反馈的集成。这种状态机方法比生成完整序列然后进行事后解析以提取代码的效率显著提高。该机制还通过计算已完成的执行周期 (n calls) 来管理工具交互频率。为了进行实验控制尤其是在管理计算资源的初始运行中强制设置最大调用次数 (N max)。达到此限制后会在最终恢复生成之前向上下文中注入一条通知“工具调用次数已用尽。您无法再调用该工具。”以确保agents此后能够依靠内部推理。论文https://arxiv.org/abs/2505.07773代码https://github.com/yyht/openrlhf_async_pipline总结还有一些跟search相关的工作比如R1-SearcherReSearch Search-R1DeepResearcher等有兴趣可以看看。总体上agents的训练拓展还是基于现有的rl基础设施做了一些修改谈不上是巨大的创新但是这个领域逐渐活跃起来了说不定大家卷来卷去发现了一条百试百灵的路径让rl和agents更完美的融合门槛进一步降低支持更复杂的场景。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

网站建设与运营在线考试榆林做网站的公司

浅谈学校网站建设闭站保护期间网站能够打开吗

西安网站建设外包wordpress 广播条

外贸网站源码多语言泊头公司做网站

株洲能建网站的有哪些做一晚水泥工歌曲网站

建设英文网站费用建网站新科网站建设

怎么做付款下载网站腾讯企业邮箱登录入口免费版

网站建设与运营在线考试榆林做网站的公司

浅谈学校网站建设闭站保护期间网站能够打开吗

西安 网站建设外包wordpress 广播条

外贸网站源码多语言泊头公司做网站

株洲能建网站的有哪些做一晚水泥工歌曲网站

建设英文网站费用建网站新科网站建设

怎么做付款下载网站腾讯企业邮箱登录入口免费版

西安网站建设外包wordpress 广播条