检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Slot使用率,并把实际Slot使用率和阈值相比较。当检测到Slot使用率高于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当Slot使用率小于或等于阈值时,告警恢复。
告警级别 是否可自动清除 12191 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 告警触发的条件。 对系统的影响 业务延迟:主
告警级别 是否可自动清除 12201 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 告警触发的条件。 对系统的影响 业务延迟:主
方案。集群中支持同时共存多个JDBCServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的JDBCServer服务。 多主实例模式相比主备模式的HA方案,优势主要体现在对以下两种场景的改进。
网络读包错误率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息
告警属性 告警ID 告警级别 是否自动清除 12047 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition
s3(path [,access_key_id, secret_access_key] [,format] [,structure]) path:带有文件路径的Bucket URL地址。 format:文件的格式。 access_key_id, secret_access_key:账号
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息
命令的url中请使用https协议。 安全模式下,需要设置spark.ui.customErrorPage=false并重启spark2x服务 (JobHistory2x、JDBCServer2x和SparkResource2x三个实例对应的参数都需要修改)。 升级更新节点环境上
件中。 这样带来的问题是如果reduce分区的数量比较大的话,将会产生大量的磁盘文件(比如:该问题中将产生1000000 * 100000 = 10^11个shuffle文件)。如果磁盘文件数量特别巨大,对文件读写的性能会带来比较大的影响,此外由于同时打开的文件句柄数量多,序列化
登录Manager集群页面时报错“You have no right to access the page” 问题现象 访问集群管理页面报错: You have no right to access the page. 原因分析 当前登录的用户没有访问Manager的权限。 “/
文件句柄使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测主机文件句柄使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到主机文件句柄使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 主机状态
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测损坏的块数量,并把损坏的块数量和阈值相比较。损坏的块数量指标默认提供一个阈值范围。当检测到损坏的块数量超出阈值范围时产生该告警。 当损坏的块数量小于或等于阈值时,告警恢复。建议使用命令(hdfs
告警属性 告警ID 告警级别 是否自动清除 12016 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维 > 告警 > 阈值设置> 服务 > Kafka”修改阈值。当分区数小于或等于阈值时,告警清除。
有1G,在数据量比较大(1T以上)的Spark任务下,内存严重不足,消息响应缓慢,导致FusionInsight健康检查认为NodeManager进程退出,强制重启NodeManager,导致上述问题产生。 解决方法: 调整NodeManager的内存,数据量比较大(1T以上)的
下载认证凭据”,待文件自动生成后指定保存位置,并妥善保管该文件。 认证凭据中会携带kerberos服务的“krb5.conf”文件。 解压认证凭据文件后可以获取两个文件: “krb5.conf”文件包含认证服务连接信息。 “user.keytab”文件包含用户认证信息。 下载认证凭据文件(MRS
REPLACE WITH TABLE tbl2 [PROPERTIES('swap' = 'true')]; 对于部分查询,可能执行时间比较长,查询比较耗费内存和CPU等资源,需要在SQL或user级别设置查询超时时间参数:query_timeout Doris数据变更建议 执行特殊
件中。 这样带来的问题是如果reduce分区的数量比较大的话,将会产生大量的磁盘文件(比如:该问题中将产生1000000 * 100000 = 10^11个shuffle文件)。如果磁盘文件数量特别巨大,对文件读写的性能会带来比较大的影响,此外由于同时打开的文件句柄数量多,序列化