使用离散状态转换训练深度神经网络

上传:huaqyx 浏览: 24 推荐: 0 文件:PDF 大小:127.76KB 上传时间:2021-04-16 18:02:37 版权申诉
深度神经网络已经在各种人工智能任务中实现了迅猛的突破,但是,由于消耗了无法忍受的硬件资源,训练时间和力量,它们却臭名昭著。 旨在减少开销并保持高性能的新兴修剪/二值化方法似乎有望在便携式设备上应用。 但是,即使采用了这些最先进的算法,我们也必须在梯度下降过程中保存全精度权重,而梯度下降过程仍然会导致内存访问和结果计算的大小和功耗瓶颈。 为了解决这一挑战,我们通过引入一个概率投影算子来提出一个统一的离散状态转换(DST)框架,该概率投影算子在整个训练过程中以状态数量可配置的方式约束离散权重空间(DWS)中的权重矩阵。 在包括MNIST,CIFAR10和SVHN在内的各种数据集上的实验结果表明了该框架的有效性。 离散状态之间的直接转换显着节省了用于以全精度存储权重的内存,并简化了权重更新的计算。 提议的DST框架是硬件友好的,因为它可以很容易地由各种新兴的便携式设备实现,包括二进制,三元和多层存储设备。 这项工作为在不久的将来在各种便携式设备上进行片上学习铺平了道路。
上传资源
用户评论