MAPREDUCE服务 MRS-运行Spark任务发现大量shuffle结果丢失:原因分析
原因分析
Spark运行的时候会将临时产生的shuffle文件放在executor的临时目录中,方便后面获取。
而当某个executor异常退出时,NodeManager会把这个executor所在的container临时目录删除,随后其他executor再来申请这个executor的shuffle结果就会报文件找不到。
因此,遇到这样的问题需要确认是否executor异常退出,可以根据spark任务页面的executors便签页查看是否有dead状态的executor,查看各个dead状态的executor日志,确认异常退出的原因(其中可能有部分executor退出原因就是因为shuffle文件找不到,需要找到最早异常退出的executor)。
常见的异常退出:
- executor发生OOM
- executor运行时出现多个task任务失败
- executor所在节点被清理
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是Flink_如何使用Flink
- MapReduce服务_什么是Yarn_如何使用Yarn
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- 什么是Manager_Manager的功能_MRS运维管理