paddle operator:利用EDL和Volcano的Kubernetes进行弹性深度学习培训 源码

上传:jeopardy7926 浏览: 10 推荐: 0 文件:ZIP 大小:179.69KB 上传时间:2021-05-02 04:55:44 版权申诉
桨式操作器 桨操作者目前正在利用EDL和Volcano项目。 EDL: : 火山: : 带有K8S Operator的EDL主要简化了分布式培训程序。通过检查点的能力,EDL可以容忍培训过程中的工人错误,从而使培训过程中的工人数量变得灵活。通过无服务器模式,整个培训任务可以从数量相对较少的工人开始。当群集资源足够时,请扩大整个培训任务中的工作人员数量,缩短作业启动时间,并尽快查看第一次迭代的结果。同时,通过在线/离线服务联合部署提高了集群的整体利用率,并提高了研发效率。 在调度程序级别,Volcano中的帮派调度用于整体发送任务,但是可以随时增加或减少工人数量。在这种情况下,训练仍然可以完全收敛。 EDL已在Wide&Deep模型和xDeepFM模型上得到验证。 在线/离线服务联合部署的能力反映在运行各种在线服务的生产集群中,通常有必要预留多余的资源来应对用户请求的突然增加。我们希望
上传资源
用户评论