西部热线 | 助力西部开发,关注西部民生! |
adtop
adtop01
当前位置: 西部热线 > 商业

模型难复现不一定是作者的错,研究发现模型架构要背锅

作者:谷小金    栏目:商业    来源:TechWeb    发布时间:2022-03-21 19:33   阅读量:5309   

在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗。

模型难复现不一定是作者的错,研究发现模型架构要背锅

CVPR 2022的一篇研究通过将决策边界可视化的方法,给出了答案mdash,mdash,

有的容易,有的很难。

例如,从下面这张图来看,研究人员就发现,ViT比ResNet要更难复现:

研究人员还发现,模型的可复现性和模型本身的宽度也有很大关联。

同样,他们利用这种方法,对2019年机器学习最重要的理论之一mdash,mdash,双下降现象进行了可视化,最终也发现了一些很有意思的现象。

来看看他们具体是怎么做的。

更宽的CNN模型,可复现性更高

深度学习中的决策边界,可以用来最小化误差。

简单来说,分类器会通过决策边界,把线内线外的点归为不同类。

从中我们可以发现:

左边三个和右边四个差异很大,也就是说不同架构之间的相似性很低。

再进一步观察,左边的全连接网络,ViT和MLP Mixer之间的决策边界图又不太一样,而右边CNN模型的则很相似。

在CNN模型中,我们还可以观察到不同随机数种子之间明显的的重复性趋势,这说明不同初始化配置的模型可以产生一样的结果。

并发现更宽的CNN模型似乎在其决策区域具有更高的可复现性,比如WideRN30。

以及采用残差连接结构的CNN模型的可复现性得分比无此连接的模型要略高。

此外,优化器的选择也会带来影响。

在下表中,我们可以看到SAM比标准优化器产生了更多可重复的决策边界。

不过对于MLP Mixer和ViT,SAM的使用不能总是保证模型达到最高的测试精度。

有网友表示好奇,如果通过改善模型本身的设计,能改变这种现象吗。

可视化ResNet—18的双下降现象

双下降是一个有趣的概念,描述是测试/训练误差与模型大小的关系。

在此之前,大家普遍认为参数太少的模型泛化能力差mdash,mdash,因为欠拟合,参数太多的模型泛化能力也差mdash,mdash,因为过拟合。

而它证明,两者的关系没有那么简单。具体来说:

误差会先伴随着模型的增大而减小,然后经过模型过拟合,误差又增大,但伴随着模型大小或训练时间的进一步增加,误差又会再次减小。

他们通过宽度参数的改变来增加模型容量。

训练出的两组模型,其中一组使用无噪声标签的训练集,另一组则带有20%的噪声标签。

最终,在第二组模型中观察到了明显的双下降现象。

线性模型预测的模型不稳定性也适用于神经网络,不过这种不稳定性表现为决策区域的大量碎片。

也就说,双下降现象是由噪声标签情况下决策区域的过度碎片引起的。

具体来说,当k接近/达到10时,由于模型此时拟合了大部分训练数据,决策区域被分割成很多小块,变得混乱和破碎,并不具备可重复性,此时模型的分类功能存在明显的不稳定性。

而在模型宽度很窄和很宽时,决策区域碎片较少,有高水平的可重复性。

模型的可复现性得分如下:

同样可以看到,在参数化不足和过参数化的情况下,整个训练过程的可复现性很高,但在插值阈值处会出现故障。

有趣的是,即使没有噪声标签,研究人员发现他们设计的量化方法也足够敏感,可以检测到可复现性的细微下降。

目前代码已经开源,要不要来试试你的模型是否容易复现。

论文地址:

GitHub链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

adl03
adr1
adr2