保定市网站销售和设计做网站的教程视频

张小明 2025/12/23 8:22:45
保定市网站销售和设计,做网站的教程视频,工程项目管理咨询公司加盟,sem推广竞价托管公司1. Adam 优化算法前面我们已经学过Momentum和RMSprop算法。先回忆两个算法的核心思想#xff1a;算法 解决问题 技术手段Momentum 梯度方向不稳定、震荡 平滑梯度RMSprop 梯度幅度差异大 平滑梯度平方、调节步长在上一篇最后#xff0c;我们提到#xff0c;二者在使用上并不…1. Adam 优化算法前面我们已经学过Momentum和RMSprop算法。先回忆两个算法的核心思想算法 解决问题 技术手段Momentum 梯度方向不稳定、震荡 平滑梯度RMSprop 梯度幅度差异大 平滑梯度平方、调节步长在上一篇最后我们提到二者在使用上并不冲突可以结合使用。而结合后的方法同时应用平滑梯度和平滑梯度平方实现平稳方向和自适应步长。这就是Adam优化算法。说实话从原理上讲Adam基本就是把Momentum和RMSprop两种算法加起来。所以只要能理解这两种算法那Adam的理解基本不是问题我们直接展开Adam算法的公式逻辑。1.1 Adam 的基本思想Adam 会维护两个量名称 含义 对应哪部分算法一阶矩 vₜ 平滑后的梯度方向 Momentum二阶矩 Sₜ 平滑后的梯度平方幅度 RMSProp也就是说vₜ 用来稳方向Sₜ 用来调步长Adam vₜ Sₜ 的协作更新。1.2 一二阶矩1一阶矩平滑梯度 vₜ来自Momentum我们用 vₜ 表示平滑梯度这行的作用平滑方向避免梯度抖来抖去。2二阶矩平滑梯度平方 Sₜ来自RMSprop用 Sₜ 表示平滑梯度平方这行的作用感知“梯度大小的平均幅度”用于自适应调步长。1.3 一二阶矩为什么能起到相应作用再补充一点你可能会有这样一个问题为什么用一阶矩来平滑方向用二阶矩调节步长这么设置的合理性在哪他们能换个位置吗?我们总地说一下梯度和梯度平方最大的区别梯度带正负号包含方向信息梯度平方一定为正体现的是“幅度”现在再展开看一下角色 是否保留方向正负 代表的意义 最适合的任务 为什么不能反过来一阶矩 vₜ 保留正负号 过去梯度的加权平均趋势/方向 按趋势稳定方向 vₜ 会为正或负不代表“大小趋势”无法判断步长是否应该缩放二阶矩 Sₜ 永远 ≥ 0没方向 梯度平方的平均尺度/大小 按尺度自适应调步长 Sₜ 没有方向信息无法告诉你“往左还是往右”总之vₜ 和 Sₜ 的功能无法互换 —— 一个负责“走哪边”一个负责“走多快”。因此我们不可能让速度决定方向也不能让方向负责踩油门。1.4 一二阶矩的偏差修正因为 v₀ 0、S₀ 0一开始偏小所以 Adam 做偏差校正一阶矩修正二阶矩修正同样是之前就讲过的内容我们用偏差修正来弥补EMA在初期偏小的情况修正带来的影响也会在后期分母无限接近1的情况下自动消失。1.5 Adam参数更新公式到了这一步我们先看看之前两种算法的更新公式首先是Momentum:其中这里我们主要使用一阶矩来形成“惯性”抵消样本参数的个性化特征信息同时加强共性特征信息来缓解“震荡”。如果你有些忘了为什么会有这种效果再看看之前的详细解释Momentum然后我们又引入RMSprop:其中这里我们主要使用二阶矩来对每个参数实现“自适应学习率”用平滑梯度平方测定梯度“幅度”并以此来缩小大梯度放大小梯度。同样如果你有些遗忘详细的解释在这里RMSprop看这两个算法的公式有没有发现他们更改的位置完全不冲突Momentum 把和学习率相乘的梯度改为平滑梯度。RMSprop 用平滑梯度的平方做开方当成梯度的分母。就像之前说的Adam 的参数更新公式相比创新它更像合成很明显Adam 把上面两者结合起来同时应用一阶矩和二阶矩既有稳定方向又能自动调节不同参数的学习率。还是打个比方Momentum就像告诉往哪走的指南针而RMSprop像告诉怎么走的地图二者相加就成了Adam这个智能导航。Pasted image 202511121028132. 自适应优化算法Adaptive Optimization Algorithm2.1传统学习率衰减方法我们在之前学习率衰减部分学过各种“学习率衰减”方法比如 指数衰减、分段衰减、1/t 衰减 。而这些方法的共同点是直接在超参数层面调整整体学习率 α。也就是说它们的核心思路是用一个全局函数控制所有参数的步长变化每次迭代时整个模型的学习率一起变小或变大。而我们也在RMSprop部分了解了这种对所有参数应用统一学习率的不足。2.2 自适应学习率算法实际上RMSpropAdam 算法被统称为自适应学习率算法或者自适应优化算法。还有一种叫AdaGrad是改进前的RMSprop几乎不再使用所以就不提了“自适应学习率Adaptive Learning Rate”指的并不是简单地去改超参数 α 而是根据每个参数自身的梯度特征让它自己决定应该走快还是走慢。换句话说这类算法不是“直接改 α” 而是“在更新时给每个参数都乘上一个自适应比例系数”。从而形成一种 “隐式学习率” 的变化机制。就像我们这两篇所介绍的这种机制让算法能在不同维度上动态分配更新强度即使学习率 α 是固定的也能实现“局部自调节”的效果。因此Adam 不需要额外的衰减函数也能自动学会该快时快、该慢时慢。Pasted image 20251112104953本周的理论部分就到此为止下一篇的实操部分我们就看看这些优化算法相比原来的普通梯度下降法在性能上有多少提升。3.“人话版”总结概念 原理 比喻Adam 同时计算一阶矩方向和二阶矩幅度并做偏差修正。综合Momentum的“稳方向”和RMSprop的“调步长”。 像个智能导航系统Momentum告诉你该往哪走RMSprop告诉你怎么走得稳两者合体成了“自动驾驶模式”。传统学习率衰减 通过全局公式如指数衰减、1/t衰减等手动让整个模型学习率逐步下降。 像定时器无论路况怎样到点就自动降速。自适应学习率算法 不再改α本身而是让每个参数在更新时都带上“自调节比例”实现隐式学习率。 就像每个车轮都能独立判断地面情况自主控制转速整体协调而智能地前进。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

外国风格网站建设费用室内设计软件培训

测试数据的隐性价值 在敏捷开发与DevOps普及的当下,软件测试已从单纯的缺陷探测转向质量风险评估与预防。现代测试过程中产生的海量数据——包括用例执行记录、缺陷分布矩阵、性能基线对比、环境配置信息等——构成了评估产品质量态势的宝贵资产。据统计&#xff0…

张小明 2025/12/22 11:50:15 网站建设

建设通网站查wordpress取消自动更新

本文将深入探讨单北斗GNSS位移监测技术在水库安全保障中的核心作用。随着技术的不断发展,单北斗变形监测系统以其高精度和实时性,成为监测基础设施安全的重要工具。这些系统能够有效识别水库形变及潜在风险,并及时提供数据支持。文章中将详细…

张小明 2025/12/22 11:50:12 网站建设

更改网站文章上传时间泰州建设工程信息网

网络负载均衡通过配置VRRP实现负载均衡的效果步骤一:首先按图组建拓扑pc1的ip是192.168.1.1 网关是192.168.1.254pc2的ip是192.168.2.1 网关是192.168.2.254pc3的ip是192.168.1.2 网关是192.168.1.254pc4的ip是192.168.2.2 网关是192.168.2.254所有交换机依次改名为…

张小明 2025/12/22 11:50:10 网站建设

友情链接怎么设置小红书笔记关键词排名优化

还在为Python桌面应用单调的界面发愁吗?PyQtDarkTheme为您带来革命性的解决方案,让您的应用在众多产品中脱颖而出。这款专为PyQt和PySide设计的主题库,不仅提供深色主题支持,更构建了完整的视觉设计体系。 【免费下载链接】PyQtDa…

张小明 2025/12/22 11:50:08 网站建设

庆阳网站哪里做小说网站开发源码

LP3799FBC&#xff08;TO220-6F&#xff0c;集成≥650V 高压管&#xff0c;原边反馈 PSR 反激&#xff09;适合 48W 级隔离 CV/CC 适配器 / 充电器&#xff0c;外围精简、EMI 友好、待机 < 75mW&#xff0c;量产与安规成本可控。典型应用场景与规格&#xff08;选型速览&…

张小明 2025/12/22 13:56:35 网站建设

商洛微网站建设重庆市住房和城乡建设厅官方网站查询

在微软西雅图总部的“体验中心一号”&#xff0c;一个案例演示吸引众多访客驻足&#xff1a;AI模型支撑的“数字研究员”&#xff0c;能够扫描海量的公共生物医学数据&#xff0c;将原本需要科学家团队数月阅读分析才能发现的潜在疾病靶点&#xff0c;在几天甚至几小时内锁定。…

张小明 2025/12/22 13:56:33 网站建设