检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
> 阈值配置 > 主机 > 网络状态 > TCP临时端口使用率 > TCP临时端口使用率”修改阈值。 平滑次数为1,TCP临时端口使用率小于或等于阈值时,告警恢复;平滑次数大于1,TCP临时端口使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12052
用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。 平滑次数为1,DataNode磁盘空间使用率指标的值小于或等于阈值时,告警恢复;平滑次数大于1,DataNode磁盘空间使用率指标的值小于或等于阈值的80%时,告警恢复。 告警属性 告警ID
> 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 主机状态 > 主机文件句柄使用率”修改阈值。 平滑次数为1,主机文件句柄使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机文件句柄使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12053
产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。 平滑次数为1,HDFS磁盘使用率小于或等于阈值时,告警恢复;平滑次数大于1,HDFS磁盘使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14001
阈值设置”,在服务列表下面,选择“Kafka > 磁盘 > Broker磁盘使用率 (Broker)”修改阈值。 平滑次数为1,Kafka磁盘使用率小于或等于阈值时,告警恢复;平滑次数大于1,Kafka磁盘使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
Executor注册shuffle service的超时时间是5秒,最多重试3次,该参数目前不可配。 建议适当调大task retry次数和Executor失败次数。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark.yarn.max.executor
业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 CPU配置无法满足业务需求,CPU使用率达到上限。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录MRS Manager,基于实际CPU使用情况,修改告警阈值和平滑次数配置项。 根据实际服务的使用情况在“系统设置
系统每30秒周期性检测Broker上每个用户的连接数情况,当连续5次检测到Broker上某个用户的连接数使用占比超过阈值(默认80%)时产生该告警。 平滑次数为5,当Broker上某个用户的连接数使用占比低于阈值时,告警恢复。 告警可自动清除,但当某个用户的连接数突然变为0时,而且不再建立连接,此时该告警不会消除,需要手动清除。
产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS文件数过多,磁盘存储不足可能造成数据入库失败。对HDFS系统性能产生影响。 可能原因 HDFS文件数超过阈值。 处理步骤 检查系统中是否有不需要的文件。
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络
的参数,请参见快速配置Spark参数。 配置Stage失败重试次数 Spark任务在遇到FetchFailedException时会触发Stage重试。为了防止Stage无限重试,对Stage重试次数进行限制。重试次数可以根据实际需要进行调整。 在Spark客户端的“spark-defaults
数据导入异常,则drop对应的分区数据或清理掉导入的数据后,重新导入该分区或批次数据。 大批量少频次的写入。 ClickHouse的每次数据插入,都会生成一到多个part文件,如果data part过多, merge压力会变大,甚至出现各种异常影响数据插入。建议每个批次5k到10
ClickHouse集群配置说明 背景介绍 ClickHouse通过多分片多副本的部署架构实现了集群的高可用,每个集群定义多个分片,每个分片具有2个或2个以上副本。当某节点故障时,分片内其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。 本章节仅适用于MRS 3
Map阶段的调优 判断Map使用的内存大小 判断Map分配的内存是否足够,一个简单的办法是查看运行完成的job的Counters中,对应的task是否发生过多次GC,以及GC时间占总task运行时间之比。通常,GC时间不应超过task运行时间的10%,即GC time elapsed (ms)/CPU
ALM-45442 SQL并发数过高 告警解释 告警模块按30秒周期检测ClickHouse服务的实际并发数,若并发数超过界面配置的并发阈值,系统产生此告警。 当系统检测到实际并发数低于并发阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45442 重要 是 告警参数
字段进行运算或者比较的时候。字符串的过滤效率相对于整型或者特定时间类型有下降。 建议 不建议表中存储过多的Nullable列,可以考虑字符串使用“NA”,数值型用0作为缺省值。过多使用Nullable将消耗更多内存。 建议规划好业务所需的列,必要时可提前预置一些属性列,避免频繁的增删列。
支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS
cdl_job_name 本批次数据所属同步任务名称 target_table_schema 本批次数据写入Schema名称 target_table_name 本批次数据写入Hudi表名称 target_table_path 本批次数据保存的Hudi表路径 total_num 本批次数据总数 cd
record日志记录。 carbon.options.bad.records.action 指定bad record操作,例如,强制(force),重定向(redirect),失败(fail)或忽略(ignore)。有关详细信息,请参阅•Bad Records处理: carbon.options
解决Kudu组件客户端安装问题 解决鲲鹏机型KuduMaster偶现自动重启问题 解决Ranger界面无法正常搜索问题 解决Ranger界面登出后未重定向到登录页面的问题 补丁兼容关系 MRS 3.0.5.1补丁包中包含所有MRS 3.0.5单点问题修复补丁。 安装补丁的影响 MRS 3.0