北京壹网

「阿里巴巴」直接对梯度下手,阿里提出新优化技巧,一行代码即可改善现有优化器

『北京壹网_「阿里巴巴」直接对梯度下手,阿里提出新优化技巧,一行代码即可改善现有优化器摘要』优化技巧何其多也!比如批归一化、权重标准化……但现有的优化办法大年夜多基于激活或权重履行,比来阿里达摩院的研究者另辟门路,直接对梯度下手,提出全新的梯度中间化办法。只需一行代码即可嵌入现有的DNN优化器中,还可以直接对预练习模型进行微调。优化技巧对于深...


      

机器之心报道
机器之心编辑部
「阿里巴巴」直接对梯度下手,阿里提出新优化技巧,一行代码即可改善现有优化器
本文图片

优化技术何其多也!比如批归一化、权重标准化……但现有的优化方法大多基于激活或权重执行 , 最近阿里达摩院的研究者另辟蹊径 , 直接对梯度下手 , 提出全新的梯度中心化方法 。 只需一行代码即可嵌入现有的 DNN 优化器中 , 还可以直接对预训练模型进行微调 。
优化技术对于深度神经网络 (DNN) 的高效训练至关重要 。 以往的研究表明 , 使用一阶和二阶统计量(如平均值和方差)在网络激活或权重向量上执行 Z-score 标准化(如批归一化 BN 和权重标准化 WS)可以提升训练性能 。
已有方法大多基于激活或权重执行 , 最近阿里达摩院的研究人员另辟蹊径提出了一种新型优化技术——梯度中心化(gradient centralization , GC) , 该方法通过中心化梯度向量使其达到零均值 , 从而直接在梯度上执行 。
我们可以把 GC 方法看做对权重空间和输出特征空间的正则化 , 从而提升 DNN 的泛化性能 。 此外 , GC 还能提升损失函数和梯度的 Lipschitz 属性 , 从而使训练过程更加高效和稳定 。
GC 的实现比较简单 , 只需一行代码即可将 GC 轻松嵌入到现有基于梯度的 DNN 优化器中 。 它还可以直接用于微调预训练 DNN 。 研究者在不同应用中进行了实验 , 包括通用图像分类和微调图像分类、检测与分割 , 结果表明 GC 可以持续提升 DNN 学习性能 。
「阿里巴巴」直接对梯度下手,阿里提出新优化技巧,一行代码即可改善现有优化器
本文图片

论文地址:https://arxiv.org/pdf/2004.01461.pdf
【「阿里巴巴」直接对梯度下手,阿里提出新优化技巧,一行代码即可改善现有优化器】项目地址:https://github.com/Yonghongwei/Gradient-Centralization
不同于基于激活或权重向量运行的技术 , 该研究提出了一种基于权重向量梯度的简单而有效的 DNN 优化技术——梯度中心化(GC) 。
如图 1(a) 所示 , GC 只是通过中心化梯度向量使其达到零均值 。 只需要一行代码 , 即可将其轻松嵌入到当前基于梯度的优化算法(如 SGDM、Adam) 。
尽管简单 , 但 GC 达到了多个期望效果 , 比如加速训练过程 , 提高泛化性能 , 以及对于微调预训练模型的兼容性 。
「阿里巴巴」直接对梯度下手,阿里提出新优化技巧,一行代码即可改善现有优化器
本文图片

图 1:(a) 使用 GC 的示意图 。 W 表示权重 , L 表示损失函数 ,_WL 表示权重梯度 , Φ_GC( _WL) 表示中心梯度 。 如图所示 , 用 Φ_GC( _WL) 替换_WL 来实现 GC 到现有网络优化器的嵌入 , 步骤很简单 。 (b) 全连接层(左)和卷积层(右)上梯度矩阵/权重张量的 GC 运算 。 GC 计算梯度矩阵/张量的每列/slice 的平均值 , 并将每列/slice 中心化为零均值 。
研究贡献
该研究的主要贡献有:
提出了一种通用网络优化技术——梯度中心化(GC) , GC 不仅能够平滑和加速 DNN 的训练过程 , 还可以提升模型的泛化性能 。
分析了 GC 的理论性质 , 指出 GC 通过对权重向量引入新的约束来约束损失函数 , 该过程对权重空间和输出特征空间进行了正则化 , 从而提升了模型的泛化性能 。 此外 , 约束损失函数比原始损失函数具备更好的利普希茨属性 , 使得训练过程更加稳定高效 。
梯度中心化
研究动机
研究者提出了这样的疑问:除了对激活和权重的处理外 , 是否能够直接对梯度进行处理 , 从而使训练过程更加高效稳定呢?一个直观的想法是 , 类似于 BN 和 WS 在激活与权重上的操作 , 使用 Z-score 标准化方法对梯度执行归一化 。 不幸的是 , 研究者发现单纯地归一化梯度并不能提高训练过程的稳定性 。 于是 , 研究者提出一种计算梯度向量均值并将梯度中心化为零均值的方法——梯度中心化 。 该方法具备较好的利普希茨属性 , 能够平滑 DNN 的训练过程并提升模型的泛化性能 。

声明:本文是由网友投稿,文中所阐述的观点不代表北京壹网立场。

标签:

生活

【】【黑王后手工】初见(菠萝花样蕾丝麻优雅半身裙)

阅读(20)

一见倾心看到这条裙子细针细线的很精致也很考验耐力引用老师的话:初见倾心寥寥一瞥再见一生! 文章图片 文章图片 文章图片 文章图片 文章图片 文章图片 文章图片 用材:紫陌丁香编织工作室的素纱线 , 焦茶色7支有剩工具:宁波柳氏6#钩针1.7mm尺寸(平铺未拉伸):裙长...

生活

[]【轩妈龙女】花枝—清清凉凉网格衣

阅读(40)

本帖最后由 轩妈龙女 于 2020-7-7 14:18 编辑 【[]【轩妈龙女】花枝—清清凉凉网格衣】 简单大方的衣 , 经典的网格 , 好钩好穿 , 还不容易过时 , 基本不用看图解.快手的话 , 应该一天一片没问题 。 这算我钩的最快的一款的衣了 , 正常上班 , 其中有一个休息天...

生活

:葱油卷这样做,葱香浓郁,咸鲜可口,咬一口唇齿留香

阅读(23)

下面就为大年夜家介绍葱油卷具体的制造过程。【葱油卷】1.起首我们预备一下食材:预备一个小盆,倒入通俗小拂面粉300克,放入酵母3克、无铝泡打粉2克,放入泡打粉主如果为了让面粉加倍蓬松,家庭做的话,泡打粉可以不放。2.放入泡打粉和酵母是赞助面粉快速发酵的,倒入...

生活

:以叶插繁殖西瓜皮椒草为例,教大家如何用植物的叶片繁殖盆栽

阅读(51)

膳绫擎是圆叶椒草叶插滋长今天要分享的具体技能就是西瓜皮椒草若何进行的叶插滋长,学会这种叶插滋长的办法之后,你也可以应用到其他植物的叶插滋长上,包含秋海棠、圆叶椒草、红边椒草和皱叶椒草等。1、遴选合适的叶子用叶插滋长西瓜皮椒草是极其简单的,起首是须要预...

生活

@厨师长教糖醋排骨正宗做法,学会了在家天天吃大餐,能吃两碗米饭

阅读(23)

食材:排骨3斤以上,买最新鲜的小肋排,不要买大年夜骨头,没有肉光骨头做起来费事还不好吃。葱姜蒜、八角大年夜料、白糖等做法:排骨洗干净今后,切成3-4公分的小可儿,参加料酒和生抽白醋和食盐并搅拌平均,趁便参加葱姜,腌制30分钟阁下。接下来呢,有两种做法,我先...

生活

「」舌尖上的江苏,扬州除了炒饭还有美食“双绝”,看看你吃过吗

阅读(50)

千层油糕:其糕体半透明,柔嫩异常,层层相叠,又层层相分,甜糯适度而爽口,在控制酵面、糖、油机能的基本上应用自如。千层油糕的做法预备食材用料:中筋面粉500克、棉白糖150克、猪油100克、酵母5克、水380毫升、泡打粉5克、红绿丝少许。1.起首将预备好的500克中筋面...

生活

■奶奶包的西红柿水饺,真的太好吃了,馅料秘诀交给你,比肉馅还香

阅读(37)

主料:西红柿4-5个、虾仁150-200克。辅料:食盐适量、葱适量、姜适量、调和油适量、喷鼻油适量。下面调制馅料1.起首将预备好的西红柿清洗干净,先用刀一切两开用勺子把籽挖了不要,再将西红柿切成小丁。预备一块细网的纱布,将切小丁的西红柿放进却竽暌姑手使劲挤出西红...

滚动

最后的铁路扳道工

阅读(37)

小编提示您本文标题是:最后的铁路扳道工。来源是秘方养生。 铁路|道岔|增信|门头沟|...

热点

?10厘米钢针刺入2岁男童大脑,医生10秒拔针!这波操作太牛

阅读(47)

2岁多的孩子在家里那是相当令人操心的存在 , 因为他们正处于“初生牛犊不怕虎”的阶段 , 热水瓶、利器、尖锐物品……一不小心就可能对孩子造成危险比如这个 ▼ ?10厘米钢针刺入2岁男童大脑 , 医生10秒拔针!这波操作太牛 [北京壹网www.jing111.com] 说实话 小编光是...

热点

周杰伦主动为神秘男子庆生,竟写出:该我照顾你了!

阅读(19)

北京壹网提示您本文原始标题 :周杰伦主动为神秘男子庆生 , 竟写出:该我照顾你了! 南都讯 采访人员麻乐 昨日(10月7日)周杰伦在Instagram感性发帖 , 为生命中的一位重要男人庆生 , 并提到出道前的一段陈年旧事 。 照片中周杰伦身旁站着一个男人 , 他说自己要照...

滚动

非法放贷讨债 合肥90后“女黑老大”获刑25年

阅读(17)

[北京壹网]提示您本文原始标题 :非法放贷、讨债 , 合肥90后“女黑老大”获刑25年 非法放贷讨债 合肥90后“女黑老大”获刑25年 [北京壹网www.jing111.com] 11月5日下午 , 合肥市瑶海区人民法院公开开庭审理了杨春燕等15名被告人涉嫌组织、领导、参加黑社会性质组织罪...