

局部连接似乎对性能的影响最大。
深度的优势是提升内存和计算效率。因此,对具备更多参数的浅层架构进行长时间训练可以弥补深度不够造成的大部分性能损失。
如果没有共享权重,深度的优势会进一步减少。
研究表明 MDL 受参数数量的限制,研究者用实验表明,用更少的参数拟合训练集的架构一定程度上比过参数化架构的泛化能力更强。
该研究证明用于架构搜索的基于 MDL 的泛化约束(MDL-based generalization bound for architectures search,表明找到架构的稀疏性)对泛化能力有很大的影响。但是,只有在结构简单时,共享权重才有效。
使用 β-lasso 算法在 CIFAR10、CIFAR-100、SVHN 上训练的全连接网络,均实现 SOTA 性能。值得一提的是,与卷积网络不同,这些结果不受置换像素(permuting pixel)的影响。
该研究表明,使用 β-lasso 算法学得的网络比其局部连接版本使用的参数更少。通过可视化滤波器,研究者发现 β-lasso 算法确实学习了局部连接。它还学会了在局部邻域中更稀疏地采样,以增加感受野(receptive field),同时保证参数数量较少。
研究者还用 β-lasso 训练了不同卷积核大小的 ResNet18,发现对于全部实验数据集和卷积核大小,β-lasso 的性能均优于 SGD。
局部性(locality)非常重要。对于深层和浅层架构来说,在三个数据集上,局部连接网络和对应全连接网络之间的差距要比卷积和局部连接网络的差距大得多。这表明,卷积的主要优势来自于局部连接。
(大多数情况下,)浅层架构最终会赶上深层架构。虽然深层结构训练更长时间似乎并不能提升性能,但在所有数据集上,增加浅层架构的训练时长可以显著地提升性能。因此,在训练迭代次数达到 4000 时,深层和浅层架构之间的差距明显缩小。
在没有权重共享的情况下,深层结构的优势会消失。s-fc 在所有实验中均优于 d-fc。并且,当训练迭代次数达到 4000 时,d-local 和 s-local 相对于彼此并没有表现出明显的优势。
全连接网络的结构非常重要。s-fc 在所有实验中均大幅领先 3-fc 和 d-fc。更有趣的是,s-fc 与 3-fc 具备相同的参数量和深度,但前者第一层的隐藏单元数量远多于后者。
「在我看来,由于计算 / 样本效率,CNN 在实践中的效果优于 MLP。如果你使用正确的(无监督)目标或正则化方法、大数据和算力,MLP 可以实现同样好的结果。」
本文网址: