人是用什么做的视频网站吗求推荐公司网站建设-马鞍山市网站建设公司-Seo优化

人是用什么做的视频网站吗,求推荐公司网站建设,wordpress轮播图能换吗,开网店要建网站一起的吗这个“最低山谷”#xff0c;就是我们模型的最佳状态——损失函数的最小值。问题来了#xff1a;你看不见全局地图#xff0c;只能靠脚下的坡度来判断方向。下一步该往哪走#xff1f;步子迈多大#xff1f; 这就是优化器 (Optimizer) 要解决的核心问题。它就像你的智能登…这个“最低山谷”就是我们模型的最佳状态——损失函数的最小值。问题来了你看不见全局地图只能靠脚下的坡度来判断方向。下一步该往哪走步子迈多大这就是优化器 (Optimizer) 要解决的核心问题。它就像你的智能登山杖指导你如何高效地“下山”。一个好的优化器能带你快速、稳定地到达目的地而一个差的可能会让你在某个小山坡上来回打转甚至迷失方向。在这篇文章里我们就来一场优化器的进化之旅。从最简单直接的“凭感觉走”——随机梯度下降SGD出发一步步看它如何变得更聪明、更强大最终进化成当今大模型训练普遍采用的优化算法——Adam 和 AdamW。SGD随机梯度下降最初的梯度下降法需要一次性把所有数据都扔给模型通过遍历所有训练数据计算模型在整个数据集上的总损失计算出所有样本的损失再计算平均值然后再计算出梯度这意味着每一次更新参数都需要遍历整个数据集虽然说这样计算出来的梯度方向非常准确但当今数据集普遍都非常庞大这种方法对算力和内存都有非常高的需求。SGD的改进方向是每次只遍历一部分的数据每次只根据这一部分数据计算出来的梯度来更新参数其中是参数是学习率是梯度。因为每次只遍历一部分数据这一部分数据的大小我们称为batch_size所以梯度的计算会非常快并且对内存也会更加友好。这个遍历的过程会一直重复直到遍历完所有数据这里称作一个Epoch。但这种方法也会有一定的缺点每次只遍历一部分数据意味着充满随机性和噪音损失函数会有一定的上下波动收敛过程较慢。话又说回来噪音和随机性有时候反而会跳出局部最优解。Momentum上面说到在使用SGD算法时我们有事会遇到震荡的问题导致模型收敛较慢这种现象是由于每次迭代后梯度变化较大导致的。想像一下我们的损失函数像是一个被拉得很长的、像峡谷或椭圆形山谷一样的地形在这个峡谷里两侧的峭壁非常陡峭梯度很大。而沿着峡谷底部走向最低点的坡度却非常平缓梯度很小。我们的目标是让小球代表模型参数从峡谷的一端平稳地滚动到谷底的最低点。现在我们把 SGD 控制的小球放在峡谷的一侧峭壁上。会发生什么第一步小球只看脚下它发现通往对面峭壁的方向是最陡的下坡路梯度最大。于是砰的一下它朝着对面冲了过去。用力过猛由于峭壁方向的梯度很大这一步的步长可能也很大导致小球不仅冲到了对面甚至可能冲到了比起始点更高的位置。第二步在新的位置小球再次环顾四周发现“回头”的方向又是最陡的。于是砰的一下它又朝着原来的方向冲了回去。这个过程会不断重复。小球就在峡谷的两侧峭壁之间来回“之”字形地反弹、震荡。虽然它整体上确实在向着谷底移动但这种移动是极其低效和缓慢的。大部分能量都浪费在了这种无意义的左右摇摆上。这就是 SGD 的核心困境在梯度变化剧烈的方向上峭壁方向它会剧烈震荡难以稳定。在梯度变化平缓的方向上谷底方向它又因为梯度太小而前进缓慢。我们陷入了一个两难境地如果调大学习率想让它在谷底走快点它在峭壁上的震荡就会失控如果调小学习率来抑制震荡它在谷底的前进速度又会变得遥遥无期。如何解决引入“惯性”的力量 —— 动量 (Momentum)我们该如何让这个小球变得更“聪明”一点呢问一个简单的问题一个真实世界里的重铁球会这样来回反弹吗不会。一个有质量的铁球会带有惯性或者说动量。在峭壁方向垂直于峡谷铁球冲向对面峭壁时峭壁会给它一个反作用力。这样一来一回它在这个方向上的速度会因为反复的碰撞和转向而被抵消掉。在谷底方向沿着峡谷在这个方向上重力始终在稳定地拉着它前进。这个方向上的力是持续不断的所以铁球的速度会不断累积越滚越快。这就是动量法 (Momentum) 的核心思想我们给小球增加一个“速度”变量 v它会累积过去的梯度信息抵消震荡在来回震荡的方向上梯度方向一正一负反复变化。当把这些梯度加权平均后它们会相互抵消使得这个方向上的更新幅度变小。加速前进在方向一致的梯度上如峡谷底部梯度方向始终不变。当把它们加权平均后会不断累积使得这个方向上的更新速度越来越快。看看在数学上如何实现动量法其中代表当前时刻的梯度参数用于指数加权移动平均该方法可以减小更早时刻梯度对当前梯度的影响通常取值为 0.9。如果说上一时刻的梯度比较陡也就是梯度是一个较大的负数那么当前时刻的梯度会被减去一个较大的值导致参数不会发生太大的变化就好像小球在冲向谷底时会慢慢刹车从而减小震荡的程度。RMSProp前面提到的优化器中的学习率均是一个固定的参数但在复杂的、高维的损失函数空间中不同参数对最终损失的“敏感度”和“重要性”是截然不同的一个“一刀切”的更新步长会对优化过程造成极大的阻碍。依旧把损失函数空间比做一个山谷这个山谷的宽度方向非常陡峭但长度方向非常平缓理想的策略是在宽度方向用小步子在长度方向上用大步子对应来说就是在损失函数空间在梯度比较大的参数上的学习率比较小在梯度比较小的参数上的学习率比较大。RMSProp最核心的优点就是自适应学习率其中代表着历史中所有梯度的平方和代表指数加权移动平均法的参数它控制了历史梯度信息被遗忘的速度是全局学习率是一个非常小的数防止分母为0。RMSprop 通过对每个参数的更新进行了归一化。这使得每个参数都有一个量身定制的学习率非常适合处理特征稀疏或者不同参数梯度尺度差异巨大的情况例如在自然语言处理中某些词的词向量很少被更新。Adam动量法是在梯度上做文章RMSProp是在学习率上做文章那能不能把这两种方法结合起来呢Adam就是二者结合起来的一种优化器其中。AdamW虽然理论上Adam算法的性能更优但人民发现Adam有时的表现并不如动量法尤其是在模型泛化能力上。我们知道L2 正则化的目标是防止模型过拟合通过在损失函数中增加一个惩罚项惩罚过大的权重。其中是正则化强度是模型的权重。L2 正则化如何变成“权重衰减”当计算总损失的梯度时这个惩罚项会引入一个新的梯度项在更新权重时以 SGD 为例看到这一项了吗它意味着在每次应用梯度更新之前权重自身都会被乘以一个小于 1 的系数进行“衰减”。这就是权重衰减的由来。对于 SGD 来说L2 正则化和权重衰减是等价的。再看看L2正则化在Adam中是怎么样的我们可以看到这个旨在让权重衰减的项本身也被Adam的自适应分母给缩放了这样的后果是对于那些历史梯度比较大的权重它们的有效权重衰减强度会变得非常小。通常梯度较大的权重往往是模型中比较重要的、需要被好好正则化的权重。但 Adam 的实现方式反而减小了对这些权重的正则化力度。它将正则化强度和梯度的历史大小错误地耦合在了一起。AdamW的作者在论文中指出了上述问题并提出了一种简单而优雅的解决方案将权重衰减与梯度更新解耦在实际实现过程中还需要进行偏置矫正image

人是用什么做的视频网站吗求推荐公司网站建设

广西网站建设推荐无名岛wordpress

php网站链接支付宝wordpress为何登

贵州建设厅网站八大员报名入口做理论的网站

网站设计案例简单wordpress自动给关键词加内链方法

家政网站建设方案杭州网站建设是什么

网上订餐网站模板网站建设案例典型企业案例

人是用什么做的视频网站吗求推荐公司网站建设

广西网站建设推荐无名岛wordpress

php网站链接支付宝wordpress为何登

贵州建设厅网站八大员报名入口做理论的网站

网站 设计 案例 简单wordpress自动给关键词加内链方法

家政网站建设方案杭州网站建设是什么

网上订餐网站模板网站建设案例典型企业案例

网站设计案例简单wordpress自动给关键词加内链方法