检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nfo会执行kill -3将jstack信息打印到.out日志文件里,从而导致.out日志文件过大。 处理步骤 在每个HDFS实例的节点上部署定期清理.out日志文件的定时任务。后台登录HDFS的实例节点,在crontab -e中添加每天0点清理.out日志的定时任务。 crontab
ALM-45449 ClickHouse使用zxid即将翻转 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 ClickHouse依赖ZooKeeper,zxid(ZooKeeper Transaction ID)是ZooKeeper为了实现分布式一致性而引入的一种事务编
访问MRS集群上托管的开源组件Web页面 如果组件支持开源WebUI,则在组件基本信息区域可通过WebUI的链接访问开源WebUI。 对于开启Kerberos认证的集群,admin用户不具备各组件的管理权限,如需正常访问各组件的Web UI界面,请提前参考创建MRS集群用户创建具有对应组件管理权限的用户。
ster地址。 HMaster通过ZooKeeper随时感知各个HRegionServer的健康状况,以便进行控制管理。 HBase也可以部署多个HMaster,类似HDFS NameNode,当HMaster主节点出现故障时,HMaster备用节点会通过ZooKeeper获取主
ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。
前提条件 MRS 3.1.0及之后版本在创建集群时已勾选Sqoop组件。 安装客户端,具体请参考安装客户端(3.x及之后版本)。例如安装目录为“/opt/client”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 客户端目录/Sqoop/sqoop/lib下已有对应驱动包
ALM-38006 Kafka未完全同步的Partition百分比超过阈值 告警解释 系统每60秒周期性检测Kafka服务未完全同步的Partition数占Partition总数的百分比,当连续3次检测到该比率超出阈值(默认50%)时产生该告警。 平滑次数为1,未完全同步的Par
登录FusionInsight Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否安装了Doris组件,且是否创建了UDF函数 咨询用户或者检查Doris是否有使用自定义函数功能。 连接Doris,执行以下命令查询是否有自定义函数:
ALM-19006 HBase容灾同步失败 告警解释 告警模块每30s检查一次HBase容灾数据的同步状态,当同步容灾数据到备集群失败时,发送该告警。 当容灾数据同步成功后,告警清除。 告警属性 告警ID 告警级别 是否自动清除 19006 紧急 是 告警参数 参数名称 参数含义
chmod +x python-examples -R 在python-examples/pyCLI_nosec.py中的hosts数组中填写安装HiveServer的节点的业务平面IP。 执行以下命令运行Python客户端: cd python-examples python pyCLI_nosec
使用Hive Hive常见日志说明 Hive服务启动失败 安全集群执行set命令的时候报错“Cannot modify xxx at runtime” 提交Hive任务时如何指定队列? 怎么通过客户端设置Map/Reduce内存? 如何在导入Hive表时指定输出的文件压缩格式?
查看MRS集群审计日志 “审计”页面记录用户对集群Manager页面操作信息。管理员可查看用户在Manager上的历史操作记录,审计管理包含的审计内容信息,请参考审计日志。 该任务指导用户在MRS Manager查看、导出审计日志工作,用于安全事件中事后追溯、定位问题原因及划分事故责任。
连接ClickHouse服务端异常报错“code: 516”如何处理? 问题现象 使用clickhouse client命令连接ClickHouse服务端,报错: ClickHouse exception, code: 516, host: 192.168.0.198, port:
ALM-19006 HBase容灾同步失败(2.x及以前版本) 告警解释 当同步容灾数据到备集群失败时,发送该告警。 当容灾数据同步成功后,告警清除。 告警属性 告警ID 告警级别 可自动清除 19006 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。
ALM-45639 Flink作业checkpoint完成时间超过阈值 本章节适用于MRS 3.1.5及以后版本。 告警解释 系统每30秒为周期检查Flink作业CheckPoint完成时间是否超过阈值(默认值:600秒),如果超过阈值则产生告警。作业CheckPoint完成时间小于或等于阈值,告警恢复。
Hive CBO原理介绍 Hive CBO原理介绍 CBO,全称是Cost Based Optimization,即基于代价的优化器。 其优化目标是: 在编译阶段,根据查询语句中涉及到的表和查询条件,计算出产生中间结果少的高效join顺序,从而减少查询时间和资源消耗。 Hive中实现CBO的总体过程如下:
HBase HBase jar包冲突列表 Jar包名称 描述 hbase-client-2.2.3-*.jar 连接HBase服务必须的jar包。 zookeeper-*.jar 连接ZooKeeper服务必须的jar包。 解决方案 使用MRS集群的ZooKeeper包“zookeeper*
ALM-29016 Impalad实例亚健康 告警解释 MRS 3.1.5版本:系统每60秒周期性检测Impalad的Hive Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。
HBase HBase jar包冲突列表 Jar包名称 描述 hbase-client-2.2.3-*.jar 连接HBase服务必须的jar包。 zookeeper-*.jar 连接ZooKeeper服务必须的jar包。 解决方案 使用MRS集群内的ZooKeeper包“zookeeper*
ALM-14035 HttpFS进程状态异常 告警解释 HttpFs每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14035 重要 是 告警参数 参数名称 参数含义 来源