检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
过高。 Yarn WebUI界面上显示只有少量任务在运行。 登录到集群的Master节点执行hdfs dfs -du -h / 命令发现如下文件占用大量磁盘空间。 Mapreduce服务的汇聚日志配置参数如下: 原因分析 客户提交任务的操作过于频繁,且聚合后的日志文件被删除的时间
升级节点规格可能存在规格升级成功后组件启动失败或组件异常导致节点升级后出现异常的情况,现象如下: 升级失败的节点规格已经升级成功。 失败任务管理中有新增的升级规格失败任务。 若IAM用户已同步,可在组件管理观察到存在异常角色。 若未同步,可在集群Manager页面观察到存在异常角色。 原因分析
用于将管控面对集群的操作进行封装,比如作业的提交、心跳上报、部分告警信息上报、集群创扩缩等操作。当客户从MRS管控面提交作业,随着任务量的增大或者任务并发较高,有可能会导致Executor内存不足,导致占用CPU较高、Executor进程OOM等问题。 解决步骤 通过root用户
':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight
导入、导出数据的大小。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 获取关系型数据库对应的驱动jar包保存在Loader服务主备节点的
名表时不执行恢复任务。 单击“校验”查看恢复任务的配置是否正确。 如果队列名称不正确,校验失败。 如果不存在指定的恢复目录,校验失败。 如果不满足强制覆盖的条件,校验失败。 单击“确定”保存。 在恢复任务列表已创建任务的“操作”列,单击“执行”,开始执行恢复任务。 恢复成功后进度显示为绿色。
直接重启 直接重启期间,不可新提交任务,正在运行Spark、Flink任务有重试机制不受影响。 直接重启耗时约5分钟。 滚动重启 依赖NodeManager的remote shuffle Spark任务受影响,Flink任务有概率失败,Hive任务有概率失败。 滚动重启10节点耗时约25分钟。
直接重启 直接重启期间,不可新提交任务,正在运行Spark、Flink任务有重试机制不受影响。 直接重启耗时约5分钟。 滚动重启 依赖NodeManager的remote shuffle Spark任务受影响,Flink任务有概率失败,Hive任务有概率失败。 滚动重启10节点耗时约25分钟。
是,操作结束。 否,执行3。 如阈值已超过80%,请检查告警出现时刻是否有突发的大量并发查询任务,突发大量任务将会导致内存占用飙升,待任务执行完成后检查告警是否消失,期间可能有因内存不足而执行失败或取消的任务,请重试。 如内存占用超过阈值为常态化状态,需要考虑集群扩容。 是,操作结束。 否,执行4。
据重复。需要注意的是,这个特性只能保证单分区上的幂等性,即一个幂等性Producer能够保证某个主题的一个分区内不出现重复消息;只能实现单会话上的幂等性,这里的会话指的是Producer进程的一次运行,即重启Producer进程后,幂等性不保证。 开启方法: 二次开发代码中添加 “props
uce中,每个Reduce做聚合操作,并输出结果,这样的处理会使相同的Group By Key可能被分发到不同的Reduce中,从而达到负载均衡,第二个Job再根据预处理的结果按照Group By Key分发到Reduce中完成最终的聚合操作。 Count Distinct聚合问题
计算资源(Yarn)不健康,存储资源(HDFS)健康,任务无法提交到本AZ,但是数据可以继续往本AZ内读写。 计算资源(Yarn)健康,存储资源(HDFS)部分不健康,任务可以提交到本AZ,部分数据可以在本AZ内读写,依赖于Spark/Hive调度感知数据的本地性。 AZ不健康有三种: 计算
对于一些特定的任务(例如hash join或hash aggregation类型的SQL任务),Shuffle过程中的排序并非必须的。但是Shuffle却默认必须进行排序,所以需要对此处进行改进。 此特性通过对MapReduce API进行增强,能自动针对此类型任务关闭Sort过
locator进行规划,会造成数据节点容量不均衡。下面总结了保证数据节点容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。
locator进行规划,会造成数据节点容量不均衡。下面总结了保证数据节点容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。
locator进行规划,会造成数据节点容量不均衡。下面总结了保证数据节点容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。
locator进行规划,会造成数据节点容量不均衡。下面总结了保证数据节点容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。
配置Yarn权限控制开关 配置场景 在安全模式的多租户场景下,一个集群可以支持多个用户使用以及支持多个用户任务提交、运行,用户之间不可见,需要有一个权限控制机制,使用户的任务信息不被其他用户获取。 例如,用户A提交的应用正在运行,此时用户B登录系统并查看应用列表,用户B不应该访问到A用户的应用信息。
':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight
':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight