Hadoop面试题总结(五)——优化问题

上传:z34453 浏览: 8 推荐: 0 文件:PDF 大小:84.43KB 上传时间:2021-01-16 12:51:29 版权申诉
1、MapReduce跑得慢的原因?(☆☆☆☆☆) Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)reduce等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)spill次数过多 (7)merge次数过多等 2、MapReduce优化方法(☆☆☆☆☆) 1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行
上传资源
用户评论