ElasticDL:基于TensorFlow 2.0的原生深度学习框架构建在Kubernetes上

上传:efficient810 浏览: 10 推荐: 0 文件:rar 大小:5.03MB 上传时间:2023-07-28 22:30:46 版权申诉

Kubernetes上启动分布式TensorFlow作业的一种常用方式是使用Kubeflow,这是一个基于TensorFlow 1.x的插件。Kubeflow通过协调和分配进程,确保每个作业中的所有进程互相知道对方的IP地址和端口。这对于TensorFlow的ps-based distribution方式是必需的。在TensorFlow 1.x中,一个作业中的所有进程执行TensorFlow 1.x runtime程序,通过互相通信和协调,形成一个分布式runtime来执行深度学习计算图。随着分布式训练的开始,TensorFlow runtime将计算图拆分为多个子图,每个进程执行一个子图。如果任何一个进程失败,整个大图的执行也会失败。

上传资源
用户评论