wordpress用户链接焦作整站优化

张小明 2026/1/16 17:52:07
wordpress用户链接,焦作整站优化,域名 备案 网站,网站管理助手4.0教程1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题#xff1a;Pasted image 20251110104620现在假设这就是我们的网络的损失图像#xff0c;我们通过一次次迭代#xff0c;让损失下降到最低点。这里展开两个问题#xff1a;#xff08;…1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题Pasted image 20251110104620现在假设这就是我们的网络的损失图像我们通过一次次迭代让损失下降到最低点。这里展开两个问题1为什么迭代过程会让损失上下震荡因为每个批次的样本不可能完全相同不同的特征倾向会指引参数向不同的方向更新。甚至如果一个批次中大多是噪声反而会让参数反向更新增加损失。就像猫狗分类中一个批次可能白猫多一些一个批次可能橘猫多一些而还有一些批次甚至有和狗长得很像的猫这都会影响该次迭代中的学习效果从而影响参数更新而这前后的不同就会让损失“震荡”。2为什么不改变学习率震荡也会越来越小因为在收敛的过程中损失函数变平坦梯度变小更新步长随之减小。同时样本间的梯度差异噪声也随之变小使震荡幅度下降。来看一下参数更新公式参数参数学习率梯度在学习率不变的情况下梯度越来越小了自然更新量就会变小影响损失的变化量也会变小。依旧用下山举例就像越靠近山谷底部地面越平坦即使走偏一步你也走不上多高的坡自然“来回晃动”的幅度越来越小。但这只是理想情况如果学习率设置不当就会出现这中情况你快到谷底了却还在大步流星根本刹不住车一脚又上了另一座山。你走得太慢了甚至可能在谷底附近的浅坑里转圈圈迟迟到不了真正的低点而且说到底震荡现象依然存在只是在收敛中随着整体移动量变小而没那么明显了如何解决这种情况又不影响正常收敛呢1.2 解决震荡的直接方法通过上面一部分我们现在已经知道了出现震荡的本质原因是批次训练中样本的差异导致的单次迭代的结果差异。那么你可能已经猜到了一个解决这个问题的最直接的方法增加批次样本量没错只要我们增加批次样本量模型一次学习更多的样本自然就学到了更多的特征分布出现“噪声集中”的几率也会变少。就像刚刚的猫狗分类里原来模型看完白猫就学白猫然后看橘猫学橘猫之后再看“狗猫”学“狗猫”就像对什么都很好奇的小孩每遇到新的一批样本都要调整自己对猫的认知就是一次震荡。现在我把黑白红蓝猫一次让模型看完模型就知道这些颜色的猫都是猫了就像见识广了的成年人遇到新样本发现其实里面的特征自己之前已经见过了自然不会有那么多的震荡。可是这样就又出现新问题了在本周第一部分里我们就已经论述了选择Mini-batch梯度下降是成本和性能的权衡考虑如果不计其他因素地增加批次样本那不就是批次梯度下降即一次就使用所有样本来训练吗这会带来显存暴涨单步计算量巨增训练速度不一定更快大 batch 收敛容易“卡平坦鞍点”Pasted image 20251110125009因此Batch 不是越大越好而是追求成本与梯度稳定之间的平衡。而这也引出了一个核心动机我们希望在小 batch 的成本下获得“大 batch 才有的稳定梯度效果”。这正是 Momentum 要解决的。1.3 Momentum 梯度下降法我们已经通过气温的例子学习了指数加权平均的概念。回忆一下气温的例子每天的气温都有波动直接看“当天温度”得到的曲线会忽高忽低、不够平滑就像“震荡”。但如果对气温做 EMA今天的气温占 70%昨天占 21%前天占 6%…那得到的温度曲线就会 更平滑、更稳定、更能代表真实趋势。再看看我们现在要解决的震荡问题它的核心在于每次更新只依赖该批次样本计算的梯度。现在的更新方式是不是就相当于“当天温度”那是不是同理只要我们对梯度进行EMA,让一次迭代不只依赖本次样本计算的梯度而是多批次样本梯度的指数加权平均是不是就相当于变相地增加了批次样本量我们再换个角度加深一下理解再次回看这副图先强调一下真实的图像和方向代表的信息要远比图里的复杂的多我们只是简化来帮助理解。Pasted image 20251110133009就像图里画的一样我们抽出其中两次迭代并假定他们所代表的特征。这样如果第二次迭代使用的是EMA梯度那它就得到了更平衡更指向核心特征的信息。就像把每个人自己独特的观点综合考量而每个人都赞同的观点那大概是对的就大力采纳。而这就是Momentum 梯度下降法的核心观点对多次计算的梯度做EMA,用EMA来更新参数。如果梯度方向总是在某个方向上保持一致那我们就应该越走越快。如果梯度方向来回变化就不要轻易被改变。其公式如下记参数为梯度为动量项为动量系数为学习率为则其中相当于累积了之前多次梯度的“指数加权平均”当梯度方向稳定时会越来越大加快下降速度。当梯度方向来回变化时会相互抵消减少震荡。这样我们使用Momentum 梯度下降法,用指数加权平均后的梯度更新参数既增加了核心特征上的收敛速度又缓解了个性化特征带来的震荡现象。2.“人话版”总结概念 原理 比喻梯度下降中的震荡 每个批次样本不同导致每次迭代的梯度方向不一致参数更新“来回晃动”。 就像走山路有时被小石头绊偏走两步又回到原路来回摇摆。学习率不变时震荡减小 随着收敛损失函数变平坦梯度变小更新步长减小自然震荡幅度下降。 越靠近山谷底部地面平坦即使走偏也不会翻到对面山坡。增大批次解决震荡直接方法 一次学习更多样本梯度更稳定噪声影响减小。 小孩学猫时只看一种颜色的猫会不断调整认知一次看多种颜色的猫就稳了。Momentum 梯度下降法 对多次迭代的梯度做指数加权平均EMA用EMA更新参数稳定方向加速震荡方向抵消。 就像综合多个人的意见大多数人一致的方向就加速采纳意见分歧的方向就减缓。Momentum 梯度下降法公式EMA累积前几次梯度相当于“记住过去的方向”走路更稳、更快。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

如何做网站拓扑结构图网站 网络架构

文章摘要 谷歌资深工程师Antonio Gulli发布近500页技术指南,详述21种代理设计模式,帮助构建自主AI系统。涵盖从提示链到多代理协作的实用框架,适用于企业环境。已成亚马逊概率统计类新书榜首。 文末阅读原文或下面链接加入知识星球获取500页…

张小明 2025/12/25 18:46:48 网站建设

组建网站开发团队18互联网站做网站程序

PHP脚本调试全攻略 1. 编程错误类型概述 无论使用何种编程语言,通常都存在三种类型的编程错误: - 语法错误 - 运行时错误 - 逻辑错误 在探讨检测、处理、避免和解决这些错误的策略之前,我们先来简要了解一下这三种错误类型。 2. 语法错误 语言都有一套规则,即语法,…

张小明 2025/12/25 18:46:15 网站建设

网络网站公司互联网保险业务是指

Langchain-Chatchat 构建区块链技术原理知识库的实践路径 在金融、科研与工程领域,技术人员常面临一个共同难题:如何快速准确地从大量专业文档中提取核心信息?比如一位区块链开发者需要对比 PoW 与 PoS 的能耗差异,却不得不翻阅《…

张小明 2026/1/9 13:03:27 网站建设

阜新网站推广discuz网站模板下载

河北科技师范学院本科毕业设计开题报告基于微信小程序的快递代领系统的设计与实现学 院 名 称: 数学与信息科技学院 专 业 名 称: 计算机科学与技术 学 生 姓 名: 学 生 学 号: 095123…

张小明 2026/1/10 4:50:26 网站建设

建设婚恋网站俄文网站开发翻译

FFXIV TexTools版本兼容性完整解决方案:从基础修复到高级排查 【免费下载链接】FFXIV_TexTools_UI 项目地址: https://gitcode.com/gh_mirrors/ff/FFXIV_TexTools_UI FFXIV TexTools是《最终幻想14》玩家必备的模型和贴图修改工具,但游戏版本更新…

张小明 2025/12/25 18:44:37 网站建设

学校网站群建设设计wordpress菜单添加首页

一、核心概念:定义与本质区别1. 正向代理(Forward Proxy)定义:客户端与目标服务器之间的 “中介代理”,客户端主动配置代理服务器后,所有请求先发送至代理,再由代理转发至目标服务器&#xff0c…

张小明 2026/1/11 5:36:30 网站建设