专业网站搭建运营网站设计南方企业网

张小明 2026/1/13 6:39:00
专业网站搭建运营,网站设计南方企业网,网站标题写什么作用,网站建设移动端官网序号 属性值1论文名称HumanVLA2发表时间/位置NeruiPS/20243CodeAllenXuuu/HumanVLA4创新点 1#xff1a;基于特权信息蒸馏的 VLA 学习框架 直接使用高维视觉输入训练人形机器人的全身控制极其困难#xff08;样本效率低、收敛难#xff09;。 本文提出了一种两阶段#xff…序号属性值1论文名称HumanVLA2发表时间/位置NeruiPS/20243CodeAllenXuuu/HumanVLA4创新点1基于特权信息蒸馏的 VLA 学习框架直接使用高维视觉输入训练人形机器人的全身控制极其困难样本效率低、收敛难。 本文提出了一种两阶段Two-Stage学习范式Teacher Phase (Oracle):先在全知状态State-based下利用 RL 训练一个“完美教师”。Student Phase (VLA):通过行为克隆Behavior Cloning和 DAgger 算法将教师的策略蒸馏给仅有视觉和语言输入的学生模型。验证了从状态空间State Space到像素空间Pixel Space在复杂人形控制任务中迁移的可行性是 Sim-to-Real 的关键一步。2增强的通用物体操作策略 传统的 RL AMP对抗性运动先验难以处理多种几何形状的物体且容易在困难任务中陷入局部最优只模仿动作不干活。1.几何感知编码 (Geometry-aware Encoding):引入BPS (Basis Point Set)对物体几何进行编码替代简单的 6D 姿态使策略能泛化到未见过的物体形状。2.搬运课程学习 (Carry Curriculum):将复杂的重排任务分解先学抓取再学放置加速收敛。3.风格奖励截断 (Style Reward Clipping):动态调整奖励机制强制模型在任务完成Task Reward*优先的前提下追求*动作自然Style Reward防止“无效模仿”。3主动感知/渲染机制在学生模型Student Policy中如果仅被动接收视觉输入头部相机的视角往往无法对准目标物体Feature collapse导致视觉特征丢失。因此本文提出了Active Rendering技术。在训练中引入一个辅助任务利用逆运动学IK计算并强制颈部关节“注视”目标物体。 通过混合监督信号Mixed Supervision让身体动作模仿教师而头部动作主动优化视觉观测质量。 解决了具身智能中感知Perception与控制Control解耦导致的观测质量下降问题强调了“为了感知而行动Action for Perception”的重要性。4Human-in-the-Room (HITR) 数据集现有数据集多针对轮式机器人或抓手Gripper缺乏适用于全身人形机器人Humanoid的复杂物理交互场景。 构建了 HITR 数据集。专注于Loco-manipulation移动操作即长距离行走与全身物体重排的结合。5引用量一提出问题物理人-场景交互Physical Human-Scene Interaction, 简称 HSI在众多应用中发挥着至关重要的作用。现有的技术依赖“特定的物体动力学”和“特权信息”。特定的物体动力学以前的方法可能只能处理特定的物体比如只能拿方形盒子换个圆球就不行或者只能在设定好的物理参数下工作。特权信息 (Privileged Information)这是机器人领域的一个关键概念。在模拟器里训练时我们可以直接告诉机器人“杯子的坐标是(x, y, z)”或者“这个物体的摩擦力是多少”。这叫特权信息上帝视角。但在现实世界中机器人只有摄像头眼睛它无法直接获得坐标数据。作者提出了HumanVLA一个 VLA 模型Vision-Language-Action。训练采用教师-学生框架因为直接教机器人“看图做事”太难了。流程如下第一步教师先训练一个“作弊”的老师。这个老师可以使用“特权信息”直接读取物体状态利用强化学习RL*来学会如何完美地完成任务。同时为了让动作像人而不是像抽搐的机器加入了一个*对抗性运动先验强制机器人的动作风格接近人类数据。环境在模拟器里允许作弊使用特权信息。RL (强化学习) AMP (对抗性运动先验)。AMP的作用强迫机器人不仅要把任务做对动作还得像人。如果没有AMP机器人可能会以一种非常诡异、反人类关节逻辑的方式去移动物体比如手臂反关节扭曲虽然任务完成了但不可用。原始的 AMP 处理不了复杂多样的物体作者加了一些改进技术Context navigation, Prioritized task completion让老师变得更强。第二步学生训练最终的 HumanVLA 模型学生。学生不许作弊只能看图像Vision和读指令Language。让学生去模仿老师的动作这叫行为克隆 Behavior Cloning。环境模拟现实不许作弊只能看图、听指令。Behavior Cloning (行为克隆/模仿学习)。学生看着老师在各种情况下的反应死记硬背学会由图像直接映射到动作。Active Rendering (主动渲染)。当机器人只是被动地接收图像时如果摄像头晃动或者没对准物体效果会很差。作者教机器人“主动”去调整视角Gaze intention就像人想看清东西时会转头或聚焦一样。老师拥有所有数据所以学得快学生虽然信息有限但只要死记硬背老师在特定情况下的反应最后也能学会。此外作者还贡献了一个数据集Human-in-the-Room 数据集。作者发现现有的数据集要么是纯视觉的没有物理属性要么没有针对人形机器人的全身控制。所以自己造了一个数据集。这个数据集专门包含了人形机器人在房间里进行各种“物体重排”就是搬东西、整理东西的任务。二解决方案1.RL AMP (怎么让机器人动起来)强化学习 (RL)是一个试错的过程。机器人做一个动作环境给个分数Reward。Task Reward (rG):任务分。搬起来了吗放对地方了吗做到了给高分。Style Reward (rS):风格分。动作像人吗AMP (Adversarial Motion Prior):如果只给任务分机器人可能会像僵尸或者蜘蛛一样以一种诡异但有效的方式把东西搬过去。于是引入一个判别器 (Discriminator)就像验钞机。它看过成千上万段真人的动作视频。机器人的动作生成出来后判别器打分“这是真人的动作”还是“这是机器生成的假动作”。机器人被迫在完成任务的同时欺骗判别器说自己是人从而学会自然的走路和搬运动作。2.四个改进方案1Geometry Encoding (BPS) —— 让机器人“摸”到形状。以前的方法只告诉机器人坐标和旋转XYZ, Rotation。但搬一个球和搬一个椅子的抓法完全不同。机器人如果不知道形状就会瞎抓。采用Basis Point Set (BPS)策略。想象在物体周围撒了一圈固定的点像一个隐形的笼子。测量这些点到物体表面的距离。这些距离数据就形成了一个向量独特地描述了物体的形状。这样做计算极快且能让神经网络直接理解“哦这是个长条形的物体我得抓两头”。2Carry Curriculum —— 婴儿学步法。完整的任务是走过去 - 拿起来 - 走到终点 - 放下。这太长了机器人很容易在第一步就放弃或者一直学不会。采用课程学习 (Curriculum Learning)的方案。先不学最后一步。现在的任务只是走过去 - 拿起来。 只要学会了稳稳地拿住东西Carry后面走到终点放下就容易多了。这大大加速了训练收敛。3Style Reward Clipping —— 任务优先颜值靠后。AMP 有个副作用。当任务太难比如物体太重拿不起来时机器人会发现“既然拿不到分那我就站在原地模仿人类摆手、晃动身体至少能骗点风格分Style Reward。” 于是它就开始“摆烂”只表演不干活。采用Reward Clipping (奖励截断)的方法。也就是你的风格分颜值分不能超过你的任务分实干分。如果你没干活任务分低你的风格分上限就被锁死了再像人也没用。从而逼着机器人必须先去尝试搬东西只有干了活动作做得漂亮才有用。4In-context Path Planning —— 脑子里有地图。房间里全是家具。单纯的端到端 RL 很难学会长距离避障容易撞墙或者卡在桌子角。采用A* 算法。这不是神经网络这是经典的路径规划算法。先生成一张 2D 的障碍物地图。用 A* 算好一条路Waypoints。告诉策略网络“别管太远你先走到前面那个红点Waypoint就行。”把“去哪里”这种高层规划交给经典算法把“怎么迈腿”交给神经网络。3.蒸馏教师模型(Teacher):就像开了挂的玩家直接读取内存数据物体坐标 XYZ。老师不需要“看”闭着眼都知道东西在哪。学生 模型(HumanVLA)是一个vla模型EfficientNetB0处理图像、Bert 处理文本指令、MLP/Decoder输出关节动作:就像真实玩家屏幕上只有画面Pixels。学生必须通过画面去判断物体在哪。如果学生只是离线看老师的录像学习Behavior Cloning一旦学生自己操作时犯了一点小错比如脚滑了一下画面就会变学生从未见过这种画面就会导致错误越来越大最后摔倒。因此采用DAgger (Dataset Aggregation)框架。这是一种在线学习算法。简单说就是让学生去试着操作当学生走偏的时候随时把老师叫出来“这时候你应该这么做”。把这个新数据加入训练集。1.在线学习老师RL模型只关心做动作和像人。在训练老师时因为老师有上帝视角知道坐标它不需要看物体。所以老师可能一边走路一边看天花板也能完美把东西搬走。学生VLA模型全靠眼睛看。如果学生模仿老师“看天花板”那摄像头里就没有物体学生就瞎了任务失败。作者强行修改了颈部关节的动作逻辑使身体和四肢跟随老师学习自然的搬运动作但是头强行被按着盯着物体。这样摄像头的画面里始终有物体学生模型就能学得会了。4.数据集现有数据集的缺陷以前的数据集大多是给 Fetch 或 Stretch 这种带轮子的底盘机械臂设计的。人形机器人不同它会走路身体会晃它力气大能搬桌子手是球形的不像夹爪那样精准。HITR 的构建流程3D 资产用 HSSD 高质量模型。场景生成程序化随机摆放家具保证多样性。任务生成随机把一个东西挪个位置比如把书从桌子扔地上。指令生成GPT-4-Vision。给 GPT-4V 看两张图图A书在地上图B书在桌上。问 GPT-4V“请给我一句指令让人把图A变成图B。”GPT-4V 回答“把地上的书捡起来放到桌子上。”人工清洗修正 AI 的左右不分等低级错误。三实验四总结在这项工作中研究了由物理人形机器人进行的视觉-语言引导的物体重排这是人-场景交互HSI合成和现实世界人形机器人的基础技术。我们的系统是使用教师-学生蒸馏框架开发的。我们提出了关键见解以促进利用特权状态进行的教师策略学习并引入了一种新颖的主动感知技术active perception technique来支持视觉-语言-动作模型的学习。本文提出了一个新的HITR 数据集来支持我们的任务。在广泛的实验中我们的 HumanVLA 模型在定量和定性评估中都展示了优越的结果。未来的工作包括物理人形机器人的灵巧操作dexterous manipulation和长时程多物体交互long-horizon multi-object interaction。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站运营需要 做哪些工作济南济阳哪有做网站的

告别数据库管理繁琐:SQL Studio让数据操作变得轻松愉悦 【免费下载链接】sqlite-studio SQLite database explorer 项目地址: https://gitcode.com/gh_mirrors/sq/sqlite-studio 你是否曾经为了查看一个简单的SQLite表结构而安装庞大的数据库客户端&#xff…

张小明 2026/1/7 22:57:22 网站建设

网页设计答辩流程汕头seo排名收费

MUMmer基因组比对工具:高效序列分析实战手册 【免费下载链接】mummer Mummer alignment tool 项目地址: https://gitcode.com/gh_mirrors/mu/mummer MUMmer是一款专为大规模基因组比对设计的强大工具,能够快速完成DNA和蛋白质序列的精确比对。无论…

张小明 2026/1/7 12:10:57 网站建设

网站推广方法有哪些wordpress打造官网

loss scale机制:防止梯度下溢的有效手段 在训练大语言模型时,你是否遇到过这样的情况:明明学习率设置合理、数据质量良好,但训练到一半突然梯度消失,模型不再收敛?排查许久后发现,并非代码逻辑出…

张小明 2026/1/7 20:11:13 网站建设

东莞网上销售网站建设新手入门网站建设书籍

在品牌视觉为王的时代,一个专业的Logo至关重要。然而,传统设计流程往往耗时耗力且成本高昂。幸运的是,人工智能技术的爆发正在彻底改变这一局面。如今,即使毫无设计背景,你也能借助AI工具,在几分钟内创作出…

张小明 2026/1/8 21:24:52 网站建设

信息网站方案网络技术有限公司是什么

SSH KeepAlive设置:防止PyTorch长时间训练连接中断 在深度学习的实际工程实践中,一个看似不起眼的网络问题,常常让数小时甚至数天的模型训练功亏一篑。你是否经历过这样的场景:深夜提交了一个大型 PyTorch 模型训练任务到远程服务…

张小明 2026/1/12 11:32:34 网站建设

如何用dede做带下单的网站网络系统管理学什么

内容概要:本文设计并实现了一个基于Hive的鞋类销量数据分析与可视化平台,旨在为鞋类销售商和生产企业提供数据驱动的决策支持。系统采用Python爬虫技术从苏宁易购平台采集鞋类商品数据,经过数据清洗与预处理后,存储至基于Hadoop的…

张小明 2026/1/11 4:33:16 网站建设