检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决方法: Spark在启动任务时会在客户端创建sparkDriverEnv并绑定DRIVER_BIND_ADDRESS,该逻辑并没有走到服务端,所以该问题产生的原因也是客户端节点操作系统环境问题导致sparkDriver获取不到对应的主机IP。 可以尝试设置spark.driver
MySQL链路任务启动时如何从指定位置抓取数据 现象描述 MySQL链路任务启动时,可以从指定位置抓取数据,本章节主要介绍如何获取指定位置参数。 图1 启动任务 处理步骤 使用工具或者命令行连接MySQL数据库(本示例使用Navicat工具连接)。 执行以下命令。 SHOW MASTER
操作步骤 登录Kafka服务所在Manager页面,选择“系统 > 权限 > 用户 > 添加用户”,创建一个具有Kafka权限的人机用户,例如创建人机用户ck_user1,首次使用需要修改初始密码。Kafka用户权限介绍请参考Kafka用户权限说明。 选择“集群 > 服务 > Kafka
时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Spark > JobHistory的GC时间 > JobHistory的总GC时间”修改阈值。 当JobHistory进程 GC时间小于或等于阈值时,告警恢复。
告警属性 告警ID 告警级别 是否自动清除 18008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Threshold 产生告警的阈值。 对系统的影响 产生该告警表示HBase服务的znode的容量使用率已经超过规定的阈值,如果不及时处
告警属性 告警ID 告警级别 是否可自动清除 45644 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业Ro
告警属性 告警ID 告警级别 是否可自动清除 50210 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
Superior调度器模式下管理MRS全局用户策略 操作场景 如果租户配置使用Superior调度器,那么系统可以控制具体用户使用资源调度器的行为,包含: 最大运行任务数 最大挂起任务数 默认队列 管理MRS全局用户策略 添加策略 在FusionInsight Manager,单击“租户资源”。
告警解释 根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。 告警属性
设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
务详情来处理该告警。 处理步骤 查看组件状态 在MRS Manager管理界面,选择“服务管理”,查看组件当前的运行状态是否满足要求(OMS、DBService要求状态正常,其他组件要求停止服务)。 是,执行7。 否,执行2。 恢复组件状态至要求状态,再一次启动该恢复任务。 登录MRS
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障状态的DataNode节点无法提供HDFS服务。 可能原因 DataNode故障或者负荷过高。
x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量 >
的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 告警属性 告警ID 告警级别 是否自动清除
告警属性 告警ID 告警级别 是否自动清除 45586 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 IoTDBServer进程堆内存使用率过高,会导致
单击“主机管理”,看所有主机状态。 单击列表中指定的主机名称,查看单个主机状态及指标。 定制、导出监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。 查看主机资源概况 该操作仅适用于MRS
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 MonitorServer证书文件非法或损坏。
使用deleteall命令删除大量znode时偶现报错“Node does not exist” 问题 客户端连接非Leader实例,使用deleteall命令删除大量znode时,报错Node does not exist,但是stat命令能够获取到node状态。 回答 由于网
master.initializationmonitor.timeout”参数配置一个较大的值,默认值为“3600000”毫秒。 重启HBase服务。 父主题: HBase故障排除