人是用什么做的视频网站吗求推荐公司网站建设

张小明 2026/1/13 8:55:10
人是用什么做的视频网站吗,求推荐公司网站建设,wordpress轮播图能换吗,开网店要建网站 一起的吗这个“最低山谷”#xff0c;就是我们模型的最佳状态——损失函数的最小值。 问题来了#xff1a;你看不见全局地图#xff0c;只能靠脚下的坡度来判断方向。下一步该往哪走#xff1f;步子迈多大#xff1f; 这就是优化器 (Optimizer) 要解决的核心问题。它就像你的智能登…这个“最低山谷”就是我们模型的最佳状态——损失函数的最小值。问题来了你看不见全局地图只能靠脚下的坡度来判断方向。下一步该往哪走步子迈多大 这就是优化器 (Optimizer) 要解决的核心问题。它就像你的智能登山杖指导你如何高效地“下山”。一个好的优化器能带你快速、稳定地到达目的地而一个差的可能会让你在某个小山坡上来回打转甚至迷失方向。在这篇文章里我们就来一场优化器的进化之旅。从最简单直接的“凭感觉走”——随机梯度下降SGD出发一步步看它如何变得更聪明、更强大最终进化成当今大模型训练普遍采用的优化算法——Adam 和 AdamW。SGD随机梯度下降最初的梯度下降法需要一次性把所有数据都扔给模型通过遍历所有训练数据计算模型在整个数据集上的总损失计算出所有样本的损失再计算平均值然后再计算出梯度这意味着每一次更新参数都需要遍历整个数据集虽然说这样计算出来的梯度方向非常准确但当今数据集普遍都非常庞大这种方法对算力和内存都有非常高的需求。SGD的改进方向是每次只遍历一部分的数据每次只根据这一部分数据计算出来的梯度来更新参数其中是参数是学习率是梯度。因为每次只遍历一部分数据这一部分数据的大小我们称为batch_size所以梯度的计算会非常快并且对内存也会更加友好。这个遍历的过程会一直重复直到遍历完所有数据这里称作一个Epoch。但这种方法也会有一定的缺点每次只遍历一部分数据意味着充满随机性和噪音损失函数会有一定的上下波动收敛过程较慢。话又说回来噪音和随机性有时候反而会跳出局部最优解。Momentum上面说到在使用SGD算法时我们有事会遇到震荡的问题导致模型收敛较慢这种现象是由于每次迭代后梯度变化较大导致的。想像一下我们的损失函数像是一个被拉得很长的、像峡谷或椭圆形山谷一样的地形在这个峡谷里两侧的峭壁非常陡峭梯度很大。而沿着峡谷底部走向最低点的坡度却非常平缓梯度很小。我们的目标是让小球代表模型参数从峡谷的一端平稳地滚动到谷底的最低点。现在我们把 SGD 控制的小球放在峡谷的一侧峭壁上。会发生什么第一步 小球只看脚下它发现通往对面峭壁的方向是最陡的下坡路梯度最大。于是砰 的一下它朝着对面冲了过去。用力过猛 由于峭壁方向的梯度很大这一步的步长可能也很大导致小球不仅冲到了对面甚至可能冲到了比起始点更高的位置。第二步 在新的位置小球再次环顾四周发现“回头”的方向又是最陡的。于是砰 的一下它又朝着原来的方向冲了回去。这个过程会不断重复。小球就在峡谷的两侧峭壁之间来回“之”字形地反弹、震荡。虽然它整体上确实在向着谷底移动但这种移动是极其低效和缓慢的。大部分能量都浪费在了这种无意义的左右摇摆上。这就是 SGD 的核心困境在梯度变化剧烈的方向上峭壁方向它会剧烈震荡难以稳定。在梯度变化平缓的方向上谷底方向它又因为梯度太小而前进缓慢。我们陷入了一个两难境地如果调大学习率想让它在谷底走快点它在峭壁上的震荡就会失控如果调小学习率来抑制震荡它在谷底的前进速度又会变得遥遥无期。如何解决引入“惯性”的力量 —— 动量 (Momentum)我们该如何让这个小球变得更“聪明”一点呢问一个简单的问题一个真实世界里的重铁球会这样来回反弹吗不会。一个有质量的铁球会带有惯性或者说动量。在峭壁方向垂直于峡谷 铁球冲向对面峭壁时峭壁会给它一个反作用力。这样一来一回它在这个方向上的速度会因为反复的碰撞和转向而被抵消掉。在谷底方向沿着峡谷 在这个方向上重力始终在稳定地拉着它前进。这个方向上的力是持续不断的所以铁球的速度会不断累积越滚越快。这就是动量法 (Momentum) 的核心思想我们给小球增加一个“速度”变量 v它会累积过去的梯度信息抵消震荡 在来回震荡的方向上梯度方向一正一负反复变化。当把这些梯度加权平均后它们会相互抵消使得这个方向上的更新幅度变小。加速前进 在方向一致的梯度上如峡谷底部梯度方向始终不变。当把它们加权平均后会不断累积使得这个方向上的更新速度越来越快。看看在数学上如何实现动量法其中代表当前时刻的梯度参数用于指数加权移动平均该方法可以减小更早时刻梯度对当前梯度的影响通常取值为 0.9。如果说上一时刻的梯度比较陡也就是梯度是一个较大的负数那么当前时刻的梯度会被减去一个较大的值导致参数不会发生太大的变化就好像小球在冲向谷底时会慢慢刹车从而减小震荡的程度。RMSProp前面提到的优化器中的学习率均是一个固定的参数但在复杂的、高维的损失函数空间中不同参数对最终损失的“敏感度”和“重要性”是截然不同的一个“一刀切”的更新步长会对优化过程造成极大的阻碍。依旧把损失函数空间比做一个山谷这个山谷的宽度方向非常陡峭但长度方向非常平缓理想的策略是在宽度方向用小步子在长度方向上用大步子对应来说就是在损失函数空间在梯度比较大的参数上的学习率比较小在梯度比较小的参数上的学习率比较大。RMSProp最核心的优点就是自适应学习率其中代表着历史中所有梯度的平方和代表指数加权移动平均法的参数它控制了历史梯度信息被遗忘的速度是全局学习率是一个非常小的数防止分母为0。RMSprop 通过对每个参数的更新进行了归一化。这使得每个参数都有一个量身定制的学习率非常适合处理特征稀疏或者不同参数梯度尺度差异巨大的情况例如在自然语言处理中某些词的词向量很少被更新。Adam动量法是在梯度上做文章RMSProp是在学习率上做文章那能不能把这两种方法结合起来呢Adam就是二者结合起来的一种优化器其中。AdamW虽然理论上Adam算法的性能更优但人民发现Adam有时的表现并不如动量法尤其是在模型泛化能力上。我们知道L2 正则化的目标是防止模型过拟合通过在损失函数中增加一个惩罚项惩罚过大的权重。其中是正则化强度是模型的权重。L2 正则化如何变成“权重衰减”当计算总损失的梯度时这个惩罚项会引入一个新的梯度项在更新权重时以 SGD 为例看到这一项了吗它意味着在每次应用梯度更新之前权重自身都会被乘以一个小于 1 的系数进行“衰减”。这就是权重衰减的由来。对于 SGD 来说L2 正则化和权重衰减是等价的。再看看L2正则化在Adam中是怎么样的我们可以看到这个旨在让权重衰减的项本身也被Adam的自适应分母给缩放了这样的后果是对于那些历史梯度比较大的权重它们的有效权重衰减强度会变得非常小。通常梯度较大的权重往往是模型中比较重要的、需要被好好正则化的权重。但 Adam 的实现方式反而减小了对这些权重的正则化力度。它将正则化强度和梯度的历史大小错误地耦合在了一起。AdamW的作者在论文中指出了上述问题并提出了一种简单而优雅的解决方案将权重衰减与梯度更新解耦在实际实现过程中还需要进行偏置矫正image
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

广西网站建设推荐无名岛wordpress

AutoGen配置架构:从单体到企业级的演进之路 【免费下载链接】autogen 启用下一代大型语言模型应用 项目地址: https://gitcode.com/GitHub_Trending/au/autogen 在构建下一代大型语言模型应用时,我们发现超过70%的部署失败案例源于配置管理不当。…

张小明 2025/12/24 8:08:20 网站建设

php网站链接支付宝wordpress为何登

深入解析基于.NET Core的高性能博客系统架构设计 【免费下载链接】Blog.Core 💖 ASP.NET Core 8.0 全家桶教程,前后端分离后端接口,vue教程姊妹篇,官方文档: 项目地址: https://gitcode.com/gh_mirrors/bl/Blog.Core…

张小明 2025/12/24 8:08:22 网站建设

贵州建设厅网站八大员报名入口做理论的网站

在当今快速发展的商业环境和组织管理中,扁平化组织架构凭借其高效的决策流程、灵活的沟通机制以及对市场变化的快速响应能力,受到了越来越多企业、机构的青睐。而一份清晰、规范、美观的扁平化组织架构图,不仅能够直观展现组织内部的层级关系…

张小明 2025/12/24 8:08:22 网站建设

网站 设计 案例 简单wordpress自动给关键词加内链方法

在分布式消息队列领域,Kafka 以其高吞吐、高可用、低延迟的特性占据着核心地位。对于 Java 开发者而言,熟练掌握 Kafka 生产者(Producer)与消费者(Consumer)API 是实现业务解耦、流量削峰、日志收集等场景的…

张小明 2025/12/24 8:08:24 网站建设

家政网站建设方案杭州网站建设是什么

你是否曾经因为AI生成的图像缺乏立体感而感到失望?想要让AI创作的作品拥有真实的空间层次吗?Stable Diffusion v2-depth正是你需要的解决方案。这款革命性的深度控制技术能够将普通的2D图像转化为具有丰富空间层次的视觉作品,彻底改变你的AI创…

张小明 2025/12/24 8:08:23 网站建设

网上订餐网站模板网站建设案例典型企业案例

新闻网站搭建全攻略 1. 开发方法选择 在开发新闻网站时,选用传统的过程式方法。虽然PHP可以用于面向对象编程(OOP),但传统过程式方法更易于理解和使用,而且在创建PHP脚本时,过程式方法的应用更为广泛。 2. 用户投票处理 当用户对故事进行投票时,需要判断用户是否已经…

张小明 2026/1/13 2:42:50 网站建设