Predicting Training Time Without Training
我们解决了预测预训练的深度网络收敛到损失函数给定值所需的优化步骤数的问题。为此,我们利用了以下事实:在微调过程中,深层网络的训练动力学可以很好地被线性模型的训练动力学近似。.. 这使我们能够通过求解函数空间中的低维随机微分方程(SDE)来估计训练过程中任意点的训练损失和准确性。使用此结果,我们可以预测随机梯度下降(SGD)将模型微调到给定损失所需的时间,而无需执行任何训练。在我们的实验中,我们能够预测ResNet在各种数据集和超参数上误差在20%以内的训练时间,与实际训练相比,其成本降低了30到45倍。我
.pdf
2.02 MB
2021-01-24 08:55