Sparsified Model Zoo Twins: Investigating Populations of Sparsified
Neural Network Models
解决问题:这篇论文旨在研究在大量模型中应用两种流行的稀疏化方法,以创建原始模型的稀疏版本,并比较它们的性能和鲁棒性。这是否是一个新问题?虽然稀疏化方法已经被提出并应用于个别模型,但在大量模型上的表现和鲁棒性还没有被研究过。
关键思路:本文的关键思路是在大量模型中应用两种流行的稀疏化方法,比较它们的性能和鲁棒性,并分析稀疏化前后的模型之间的一致性。相比当前这个领域的研究状况,本文的思路在于将稀疏化方法应用于大量模型,并研究它们的表现和鲁棒性。
其他亮点:本文的实验设计包括在大量模型上应用两种稀疏化方法,比较它们的性能和鲁棒性,并分析稀疏化前后的模型之间的一致性。作者公开了所有模型和稀疏化模型的代码,可在modelzoos.cc上获取。值得继续深入研究的工作包括探索更多的稀疏化方法和更广泛的模型集合。
关于作者:Dominik Honegger、Konstantin Schürholt和Damian Borth分别来自ETH Zurich和University of St. Gallen。他们之前的代表作包括“Towards Automated Testing and Debugging of Machine Learning Pipelines”和“Towards Fast and Stable Training of GANs with Gradient Penalty”。
相关研究:近期的相关研究包括“Learning Sparse Neural Networks through L0 Regularization”(Jian-Hao Luo等,IEEE)和“Sparse Networks from Scratch: Faster Training without Losing Performance”(Jian-Hao Luo等,ICLR)。
论文摘要:本文研究了神经网络模型的稀疏化问题,稀疏化可以减少模型推理的计算成本和内存需求,因此在研究和生产中备受关注。虽然已经提出了许多稀疏化方法并成功地应用于个别模型,但据我们所知,这些方法在大量模型的行为和鲁棒性方面尚未得到研究。本文通过将两种流行的稀疏化方法应用于模型群体(称为模型动物园)来创建原始动物园的稀疏化版本,填补了这一空白。我们研究了每个动物园的这两种方法的性能,逐层比较稀疏化,并分析原始和稀疏化群体之间的一致性。我们发现,这两种方法都非常稳健,幅度修剪能够在高达80%的高稀疏化比率下胜过变分丢失,此外,我们发现稀疏化模型与其原始非稀疏化模型高度一致,并且原始模型和稀疏化模型的性能高度相关。最后,所有模型动物园的模型及其稀疏化模型的双胞胎都可以在modelzoos.cc上公开获取。