检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/flink”。 在Flink任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例,否则可能会导致任务失败,并可能导致应用部分临时数据无法清空。 请确保Jar包和配置文件的用户权限与Flink客户端一致,例如都是omm用户,且权限为755。 MRS 3.2.1及以后
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 可能原因 指定的超时时间少于所需执行时间。 任务运行的队列资源不足。 任务数据倾斜,导致一些任务处理的数据量大,执行时间长。 处理步骤 检查超时时间是否正确设置。 在FusionInsight
需要采集的角色勾选“HiveServer”。 选择采集的内容勾选“jstack”和“使能jstack和jmap -histo连续采集”。 采集间隔设置为10秒,持续时长设置为2分钟。 单击“确定”,等待采集完成后单击“下载”。 请联系运维人员,并发送已收集的故障日志信息和堆栈信息。 告警清除 此告警
配置自定义调度器的WebUI 配置场景 如果用户在ResourceManager中配置了自定义的调度器,可以通过以下配置项为其配置相应的Web展示页面及其他Web应用。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 表1 配置自定义调度器的WebUI
sftp-connector连接器相关作业运行失败 问题 使用sftp-connector连接器相关作业运行失败,出现如下类似报错:“获取Sftp通道失败。xxx (原因是: failed to send channel request)”。 SFTP服务出现如下报错:“subsystem
本章节适用于MRS 3.3.0及之后的版本。 作业健康状态说明 当集群运行大量Flink作业时,为方便用户对每个作业进行健康状态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况,并可一键导出所有作业的健康度信息。作业状态分如下情况:
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 无法分配PID给新的业务进程,业务进程不可用。 可能原因 节点同时运行的进程过多,需要扩展“pid_max”值。 系统环境异常。
使用HDFS的页面上传。 使用HetuEngine用户登录FusionInsight Manager,选择“集群 > 服务 > HDFS”,进入HDFS服务页面。 在概览页签下的“基本信息”区域,单击“NameNode WebUI”后的链接,进入NameNode WebUI界面。 选择“Utilities
或多个实例。 服务:服务对外表现为集群提供的组件业务能力,集群中的每个组件对应一个服务名,提供一种服务。 角色:角色是服务的组成要素,每个服务由一个或多个角色组成,服务通过角色安装到节点(即服务器)上,保证服务正常运行。 实例:当一个服务的角色安装到节点上,即形成一个实例。每个服务有各自对应的角色实例。
以考虑增加实例。 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Spark2x > 内存 > JDBCServer2x堆内存使用率统计 (JDBCServer2x)”,可查看“阈值”。 重启所有的JDBCServer2x实例。 重启实例
以考虑增加实例。 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Spark2x > 内存 > JDBCServer2x直接内存使用率统计 (JDBCServer2x)”,可查看“阈值”。 重启所有的JDBCServer2x实例。 重启实
产生告警的Flume Agent实例无法提供正常功能,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 可能原因 JAVA_HOME目录不存在或JAVA权限异常。 Flume Agent目录权限异常。 处理步骤 检查Flume Agent配置文件。 登录故障节点IP所在主机,执行以下命令切换root用户。
用率超过阈值”所在行的下拉菜单。查看告警上报的实例的IP地址。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 实例 > quorumpeer(对应上报告警实例ip)”。单击图表区域右上角的下拉菜单,选择“定制
Configs场景,需保证KafkaUI登录用户属于“kafkaadmin”用户组或者单独给用户授予对应操作权限,否则将会鉴权失败。 非安全模式下,KafkaUI对所有操作不作鉴权处理。 使用Kafka客户端修改Kafka Topic 进入ZooKeeper实例页面: 登录FusionInsight
gClient010/*.jar); IFS=,; echo "${files[*]}") 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,当前版本用户除了这一步外还需要将$SPARK_HOME/jars/streamingClient010目录中的kafka-clients
gClient010/*.jar); IFS=,; echo "${files[*]}") 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,当前版本用户除了这一步外还需要将$SPARK_HOME/jars/streamingClient010目录中的kafka-clients
Encodings”,在“Global Encoding”和“Project Encodings”区域,设置参数值为“UTF-8”,单击“Apply”后,单击“OK”,如图2所示。 图2 设置IntelliJ IDEA的编码格式 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting
准备集群配置文件 集群创建成功后,登录FusionInsight Manager创建用于提交Flink作业的集群用户。 选择“系统 > 权限 > 用户 > 添加用户”,在新增用户界面创建一个机机用户,例如flinkuser。 “用户组”需加入“supergroup”用户组,并关联“System_administrator”角色。
触发条件 系统当前指标取值满足自定义的告警设置条件、集群外的DataNode节点IP及端口。 对系统的影响 当有脱离集群管控的DataNode时,可能造成数据丢失。 可能原因 强制删除主机后,该主机又上电恢复,进程被重新启动。 处理步骤 登录FusionInsight Manager页面,选择“运维
ClickHouse表数据分布不合理,或后台合并任务执行慢导致part数量多。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。 以客户端安装用户,登录客户端的节点,执行如下命令: cd {客户端安装路径}