检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置MapReduce Job基线 操作场景 确定Job基线是调优的基础,一切调优项效果的检查,都是通过和基线数据做对比来获得。 Job基线的确定有如下三个原则: 充分利用集群资源 Reduce阶段尽量放在一轮 每个Task的执行时间要合理 操作步骤 原则一:充分利用集群资源。
没有reduce阶段的insert任务,将会多出reduce阶段,用于收集统计信息。 本章节适用于MRS 3.x及后续版本。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 在Manager界面Hive组件的配置中搜索“hive.cbo.enab
HDFS日志介绍 日志描述 日志存储路径:HDFS相关日志的默认存储路径为“/var/log/Bigdata/hdfs/角色名”。 NameNode:“/var/log/Bigdata/hdfs/nn”(运行日志),“/var/log/Bigdata/audit/hdfs/nn”(审计日志)。
使用Kafka生产消费数据 操作场景 用户可以通过MRS集群客户端完成Kafka Topic的创建、查询、删除等操作,也可以通过登录KafkaUI查看当前集群的消费信息。 前提条件 使用Kafka客户端时:已安装客户端,例如安装目录为“/opt/client”,以下操作的客户端目录只是举例,请根据实际安装目录修改。
ALM-14038 Router堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS Router堆内存使用大小和能够分配的最大堆内存大小,计算堆内存使用大小和能够分配的最大堆内存大小的比值得到堆内存使用率,并把实际的HDFS Router堆内存使用率和阈值相比较。HDFS
配置HBase主备集群数据自动备份 前提条件 主备集群已经安装并且启动。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 当主集群HBase服务关闭时,Zookeeper和HDFS服务应该启动并运行。 该工具应该由启动HBase进程的系统用户运行。 如
备份CDL业务数据 操作场景 为了确保CDL日常数据安全,或者系统管理员需要对CDL进行重大操作(如升级或迁移等)时,需要对CDL数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 CDL的数据存储在DBService与Kafka
execute.timeout”值为“10000000”(根据当前集群中的DBService数据量调大超时时间)。 以omm用户登录集群备OMS节点,重复执行1。 以omm用户登录主OMS节点,执行以下命令查询BackupRecoveryPluginProcess进程id,并结束此进程。 jps|grep
B/iotdb/tools”目录下。 以客户端安装用户,登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 首次登录IoTDB客户端前需执行以下步骤生成SSL客户端证书: 执行以下命令生成客户端SSL证书:
ALM-45595 IoTDBServer跨空间合并执行时长超过阈值 告警解释 当检测到跨空间合并时长超出阈值时产生该告警。当跨空间合并时长低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45595 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-12180 磁盘卡IO(2.x及以前版本) 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统在30s内,每3秒采集一次数据,连续10周期,svctm时延超过6秒。 系统在30s内,每3秒采集一次数据,连续10周期,磁盘队列深度(avgqu-sz)>
配置HBase主备集群数据自动备份 前提条件 主备集群已经安装并且启动。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 当主集群HBase服务关闭时,ZooKeeper和HDFS服务应该启动并运行。 该工具应该由启动HBase进程的系统用户运行。 如
配置Spark2x Web UI ACL 配置场景 当Spark2x Web UI中有一些不允许其他用户看到的数据时,用户可能想对UI进行安全防护。用户一旦登录,Spark2x可以比较与这个用户相对应的视图ACLs来确认是否授权用户访问 UI。 Spark2x存在两种类型的Web UI,一种为运行中任务的Web
ALM-45594 IoTDBServer空间内合并执行时长超过阈值 告警解释 当检测到空间内合并时长超出阈值时产生该告警。当空间内合并时长低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45594 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-45592 IoTDBServer RPC执行时长超过阈值 告警解释 当60s周期内检测到IoTDBServer进程RPC超出阈值时产生该告警。当IoTDBServer进程RPC低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45592 重要 是 告警参数
10补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 新增磁盘不可用告警 新增设备分区丢失告警自动清除能力 慢盘/卡io算法优化 慢盘自动隔离机制优化 补丁兼容关系 MRS 1.9.3.10补丁包中已包含所有MRS
备份IoTDB业务数据 操作场景 为了确保IoTDB日常数据安全,或者系统管理员需要对IoTDB进行重大操作(如升级或迁移等),需要对IoTDB业务数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
ALM-19007 HBase GC时间超出阈值 告警解释 系统每60秒周期性检测HBase服务的老年代GC时间,当检测到HBase服务的老年代GC时间超出阈值(默认连续3次检测超过5秒)时产生该告警。 在FusionInsight Manager首页,用户可通过选择“运维 > 告警
Flink对接应用运维管理(AOM) 本章节适用于MRS 3.5.0及之后的版本。 Flink对接AOM服务场景介绍 应用运维管理(AOM)服务是一个可观测平台,基于指标、链路、日志、事件全景数据监控,提供一体化监控能力。Flink可以通过AOM服务的Prometheus实例将监
本章节适用于MRS 3.3.0及之后版本。 前提条件 需要MRS集群已安装HetuEngine组件并添加HSFabric实例。HSFabric实例的新增,删除,迁移和端口的修改,都需要重启Hue服务。 已在集群中创建HetuEngine管理员“人机”用户,如hetu_user,可参考创建H