华人博士提出机器学习优化器RAdam堪称Adam“接班人”(含代码)

baijin 2024-08-23 10:42:24 博客文章 12 ℃ 0 评论

欢迎点击上方“关注”，点击公众号头像，内含娱乐、学习的高清视频，不容错过！

近日，UIUC的华人博士生Liyuan Liu等人的一篇新论文中介绍了Adam模型的新改进“Rectified Adam”（简称RAdam）。这是基于原始Adam作出的改进，它既能实现Adam快速收敛的优点，又具备SGD方法的优势，令模型收敛至质量更高的结果。

RAda省去了使用Adam必须的“预热”环节，既能保证学习率和收敛速度，又能有效避免模型陷入“局部最优解”的陷阱，堪称Adam的优秀接班人！

为什么adam需要预热呢？

Adam和其他自适应学习速率优化器可能会基于训练早期数据太少而做出错误决策。因此，如果没有某种形式的预热，很可能在训练一开始便会收敛局部最优解，这使得训练曲线由于糟糕的开局而变得更长、更难。“预热”在训练的初始阶段中起到“降低方差”的作用，并可以避免Adam在没有足够数据的情况下在开始训练时即陷入局部最优解。

使用方法

import keras
import numpy as np
from keras_radam import RAdam
# 构建一个使用RAdam优化器的简单模型
model = keras.models.Sequential()
model.add(keras.layers.Dense(input_shape=(17,), units=3))
model.compile(RAdam(), loss='mse')
# 构建简单数据
x = np.random.standard_normal((4096 * 30, 17))
w = np.random.standard_normal((17, 3))
y = np.dot(x, w)
# 开始训练
model.fit(x, y, epochs=5)

论文链接：

https://arxiv.org/pdf/1908.03265v1.pdf

网站首页 > 博客文章正文

华人博士提出机器学习优化器RAdam堪称Adam“接班人”(含代码)

为什么adam需要预热呢？

使用方法

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

华人博士提出机器学习优化器RAdam堪称Adam“接班人”(含代码)

为什么adam需要预热呢？

使用方法

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: