首页 科技 正文

哪种优化算法构建神经网络模型比较好?35000次测试告诉你

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

想要优化本身的神经收集,却不知道哪一种优化器更适合本身?

又或,想知道深度进修中梯度下落的算法到底都有哪些?

而今,最周全的优化算法申明来了。

它清算了自1964年以来,几近所有的优化方式(约130种),将它们进行了分类。

别的,它还给出了几种基准测试方式,并用它阐清楚明晰1344种可能的配置方案。

在运行了35000次测试后,它给出了异常周全的优化器算法申明介绍,并示知你若何用这些基准测试,为本身的深度进修模子选择最好的优化方案。

优化方式具体都有哪几种?

从下图这份密密层层的图表来看,迄今为止,提出的优化算法已有130种阁下。

今朝他们还看不出来区分,但在测试后果中可以发现,这些优化器明明能被分成两类,一种适用于VAE(变分自编码器),别的一种则不适用于VAE。

而从这些优化器中的常常利用参数来看,α0透露显露初始进修率,αlo和αup代表上下界,t透露显露切换衰减样式的周期,k透露显露衰减因子。

可以看出,这些进修率的参数主要可以被分为常数、梯度下落、光滑下落、周期性、预热、超收敛等几种。

那末,130多种优化器,哪一种才是最适用的?而对这些参数进行调剂,到底能对优化器起到多大年夜的感化?

用基准测试方式来测测,就知道了。

8种基准测试方式

以下图,作者提出了8种优化义务,在这些义务上面进行测试,以获得比较后果。

从图中看来,不管是数据集(MNIST、CIFAR-10等)、模子(VAE、CNN、RNN等),照样义务(分类、NLP等)和标准(损失落率、精度)都不一样

别的,batchsize也考虑在内(看来尝试机械性能不错)。建造这些测试的目标在于,多角度考量出这些优化方式的合理性。

测试遵照下图流程走,整体算下来,共有1344种配置,共运行接近35000次。

为了得知哪一种优化方式更适合,如许做也是很拼了。

若何选择适合本身的优化方式?

那末,具体若何选择适合的优化方式呢?

下图是作者随机拔取的14个优化器。

下图是这些优化器在上面8种基准测试下的显露后果。

个中,红色的I透露显露误差局限。可以看出,在一定误差局限内,某一类优化方式的性能几近异常类似:它们在各类基准测试上的显露都不错。

为了验证这些测试方式的不乱性,作者专程对个中一些算法进行了参数调剂,下图是经典算法RMSProp和RMSProp(2)的调优后果。

可见,分歧的参数能给优化算法的性能带来不小的波动转变。

更直接地,假如增加(性能)预算,从下图可以看出,性能的改良也会有所增加。(图中橙色为所有灰线的中值)

也就是说,即使优化算法的性能不错,合理调参依然不成或缺。

那末,到底有多少优化器存在“改良参数,居然能大年夜幅增加优化能力”的问题呢?

还良多。

从下图来看,绿色透露显露优化事后,优化算法能更好地运行。

换而言之,只要某种优化算法的后果是一片绿,那末它本来的默许参数就真的很糟……

例如,AMSGrad、Mom、NAG的默许参数都存在很大年夜的改良空间。比拟而言,AMSBound由于自适应,默许参数都还异常不错,不需要再有大年夜改良。

对这些优化器进行评估后,研究者们得出以下几个结论:

1、优化器的性能,在分歧的义务中有很大年夜不同;2、事实上,大年夜部分优化器的性能惊人地类似,今朝尚没有“最通用”的优化方式;3、对优化器进行(参数)微调,其实和选择优化器一样主要、甚至更主要。

不外,当然这份表格已异常具体,照样有细心的网友发现了盲点:像SWA如许异常简单高效的方式,照样在申明时被漏失落了。

当然,就提出的几种基准测试来讲,已合适用于申明大年夜部分优化器的选择方案。

今朝,作者已在ArXiv论文页面,开源了基准测试方式的Code,感爱好的小伙伴可戳论文地址查看~

作者介绍

这几位作者都来自于德国图宾根大年夜学。

Robin M. Schmidt,较量争论机专业研究生,主要研究标的目标是人工智能,感爱好的标的目标在深度进修、强化进修及优化上。

Philipp Hennig,机械进修传授,兼任马普所科学家,曾于海德堡大年夜学和帝国理工学院修读物理,并在剑桥大年夜学获得机械进修博士学位。

Frank Schneider,机械进修博士生,研究范畴是机械进修的优化方式。今朝在研究深度进修的超参数,使深度神经收集的演习主动化。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.acewise.org/kj/1507.html