检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例如: log4j.appender.sparklog.File = ${spark.yarn.app.container.log.dir}/stdout 改为: log4j.appender.sparklog.File = ${spark.yarn.app.container.log
Load导入数据时报错“failed to send batch”或“TabletWriter add batch with unknown id”。 原因分析 系统并发量较大或数据量大导致任务执行超时。 处理步骤 登录MySQL客户端,执行以下命令适当调大“query_timeout”参数值,默认为300秒。
当TaskManager所属容器出错后,重新申请container次数。默认值为Flink集群启动时TaskManager的数量。 5 否 yarn.application-attempts Application master重启次数,次数是算在一个validity interval的最大次数,validity
Integer 参数解释: 节点系统盘大小,不可配置,默认为40GB。 取值范围: 不涉及 RootVolumeProductId String 参数解释: 节点系统盘的产品ID。 取值范围: 不涉及 RootVolumeType String 参数解释: 节点系统盘的类型。 取值范围: 不涉及
响应Body参数 参数 参数类型 描述 agency_mappings Array of AgencyMapping objects 参数解释: 用户(组)与委托之间的映射关系详细信息。 约束限制: 不涉及 表3 AgencyMapping 参数 参数类型 描述 agency String
失败任务管理:单击可查看“失败”状态的集群创建任务。 表1 集群列表参数 参数 参数说明 名称/ID 集群的名称,创建集群时设置。集群的ID是集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 :修改集群名称。 :复制集群ID。 集群版本 集群的版本号。 集群类型 显示创建集群的类型。 节点数 集群部署的节点个数,创建集群时设置。
性。 obs-connector 表1 obs-connector目的连接属性 参数 说明 桶名 保存最终数据的OBS文件系统。 写入目录 最终数据在文件系统保存时的具体目录。必须指定一个目录。 文件格式 Loader支持OBS中存储数据的文件格式,默认支持以下两种: CSV_F
查看指定资源ID的IaaS基础设施资源费用(弹性云服务器、云硬盘) 在筛选条件中选择“资源ID”,分别输入3查询到的系统盘和数据盘的ID,单击图标即可搜索系统盘或数据盘的费用: 图3 查看系统盘或数据盘的费用 在筛选条件中选择“资源ID”,输入4查询到的弹性云服务器的ID,单击图标即可搜索集群节点的费用:
ALM-24012 Flume证书文件已过期 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务的证书文件恢复到有效期内,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24012
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 依赖LdapServer的组件运行状态变为故障,可能引起集群Kerberos认证失败或操作系统用户缓存同步异常,进而导致组件业务运行异常。 可能原因 LdapServer服务所在节点故障。
ALM-12017 磁盘容量不足(2.x及以前版本) 告警解释 系统每30秒周期性检测磁盘容量,并把实际磁盘容量和阈值相比较。磁盘容量默认提供一个阈值。当检测到磁盘容量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当主机磁盘使用率小于或等于阈值时,告警恢复。
更新MRS集群节点omm用户ssh密钥 操作场景 在安装集群时,系统将自动为omm用户生成ssh认证私钥和公钥,用来建立节点间的互信。在集群安装成功后,如果原始私钥不慎意外泄露或者需要使用新的密钥时,系统管理员可以通过以下操作手动更改密钥值。 该章节仅适用于MRS 3.x及之后版本。
执行恢复任务失败后,系统按60分钟周期自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则恢复告警。 告警属性 告警ID 告警级别 是否自动清除 12035 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名
设置HBase和HDFS的句柄数限制 联系集群管理员增加各用户的句柄数。该配置为操作系统的配置,并非HBase或者HDFS的配置。建议集群管理员根据HBase和HDFS的业务量及各操作系统用户的权限进行句柄数设置。如果某一个用户需对业务量很大的HDFS进行很频繁且很多的操作,
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致整个系统任务执行变慢阻塞。 可能原因 可能存在较大的任务阻塞了队列执行时长。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致某个场景下任务持续执行失败。 可能原因
pid_max”最大可设置为: 32位系统:32768 64位系统:4194304(2的22次方) 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 检查系统环境是否异常。 联系运维人员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行2.b。 否,执行3。 等待5分钟,检查该告警是否恢复。
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 占用系统资源,业务进程响应变慢。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态。
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 TaskName 任务名称。 对系统的影响 执行恢复任务失败后,系统会自动回滚,如果回滚失败,可能会导致数据丢失,数据状态未知等问题,有可能会影响业务功能。 可能原因 该告警产生原因可能是执
监控指标数据转储介绍 监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。用户可以在Manager界面上配置监控指标数据对接参数,使集群内各监控指标数据保存到指定的FTP服务器,与第三方系统进行对接。 FTP协议未加密数据可能存在