检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么CDL任务执行后Hudi中没有接收到数据 现象描述 抓取数据到Hudi中的CDL任务运行后,Kafka中有相关数据,Spark的RDD处理中无记录,Hudi中没有相关数据,并且Yarn日志报错:TopicAuthorizationException: No authorized
使用Oozie客户端提交DistCp任务 操作场景 该任务指导用户在使用Oozie客户端提交DistCp任务。 请下载使用最新版本的客户端。 前提条件 HDFS和Oozie组件安装完成且运行正常,客户端安装成功。 如果当前客户端为旧版本,需要重新下载和安装客户端。 已创建或获取访问Oozie服务的人机用户账号及密码。
当OMS主要进程内存使用率小于等于最大内存的90%时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 12202 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。 每个任务分片在执行中都需要同一份数据集合时,就
设置并行度 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各
当前版本的Spark内核直接依赖于kafka相关的jar包(结构流使用),因此提交结构流任务时,需要把Kafka相关jar包加入到结构流任务driver端的库目录下,确保driver能够正常加载kafka包。 解决方案 提交yarn-client模式的结构流任务时需要额外如下操作: 将Spark客户端目录下spark-default
Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。 每个任务分片在执行中都需要同一份数据集合时,就
Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn
任务完成后Container挂载的文件目录未清除 问题 使用了CGroups功能的场景下,任务完成后Container挂载的文件目录未清除。 回答 即使任务失败,Container挂载的目录也应该被清除。 上述问题是由于删除动作超时导致的。完成某些任务所使用的时间已远超过删除时间。
Oozie定时任务没有准时运行如何处理 问题 在Hue或者Oozie客户端设置执行Coordinator定时任务,但没有准时执行。 回答 设置任务时,需要使用UTC时间。 例如在“job.properties”中配置“start=2016-12-20T09:00Z”。 修改配置后重新启动定时任务即可。
重新启动受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
任务完成后Container挂载的文件目录未清除 问题 使用了CGroups功能的场景下,任务完成后Container挂载的文件目录未清除。 回答 即使任务失败,Container挂载的目录也应该被清除。 上述问题是由于删除动作超时导致的。完成某些任务所使用的时间已远超过删除时间。
Server实例,详情请参考购买自定义拓扑集群。 如果当前集群支持手动添加服务,也可以在首次添加HBase服务时,选择部署Thrift1Server实例,服务添加成功后,需重启Hue服务,详情请参考添加服务。 访问作业浏览器 访问Hue WebUI,请参考访问Hue WebUI界面。
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager中的Kerberos资源异常,组件WebUI认证服务不可用,无法对Web上层服务提供安全认证功能,可能引起无法登录FusionInsight
CDL任务运行一段时间后发生“104”或“143”报错 现象描述 CDL任务运行一段时间后,Yarn任务失败,并返回状态码“104”或“143”。下图为返回状态码“143”: 可能原因 抓取到Hudi中的一批数据量过大,导致任务内存不足。 处理步骤 登录FusionInsight
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45653 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
常时,产生该告警。 当HA检测到executor资源正常后,告警恢复。 executor资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的executor资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID
Yarn中的角色,在Spark中进程名字是ExecutorLauncher。 根据每个任务的资源需求,ApplicationMaster可向ResourceManager申请一系列用于运行任务的Container。 当ApplicationMaster(从ResourceMana