检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决Yarn精细化监控部分指标没有数据的问题。 解决3AZ环境DataNode 5个节点,健康度阈值是80%,构造每个AZ下一个DataNode磁盘属主root:root,只有一个DataNode的AZ报了AZ不健康的问题。 解决AZ下缩容DataNode,副本未按照预期AZ策略补齐,导致退服失败的问题。
HBase服务数据读写示例安全认证(多集群互信场景) 场景说明 当不同的多个Manager系统下安全模式的集群需要互相访问对方的资源时,管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际上就是用户
HBase服务数据读写示例安全认证(多集群互信场景) 场景说明 当不同的多个Manager系统下安全模式的集群需要互相访问对方的资源时,管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际上就是用户
在DBServer所在节点执行命令netstat -anp | grep 20051,发现DBService的Gauss进程在启动时并未绑定floatip,只监测了127.0.0.1的本地IP。 解决办法 重新启动DBService服务。 启动完成之后在主DBServer节点执行netstat -anp
ALM-12081 ommdba用户过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户是否过期,如果用户过期,则发送告警。 当系统中ommdba用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12081 重要 是 告警参数
系统崩溃:如果丢失的是系统盘可能导致客户此节点系统运行异常,严重时导致系统崩溃无法正常开机运行。 业务失败:如果丢失的设备分区上会进行组件的业务读写操作,可能会导致业务运行异常,如作业运行失败,作业运行缓慢等。 业务延迟:设备分区丢失,客户可能需要花费时间来恢复数据和系统,这可能会导致业务延迟。
ZooKeeper连接断开 告警解释 系统每分钟检测一次ClickHouse和ZooKeeper的连接情况,如果检测连接失败,系统产生告警(告警原因为ZooKeeper连接异常)。如果连续3次检测连接失败,系统产生告警(告警原因为ZooKeeper连接断开)。 当系统检测到有一次连接成功,告警自动清除。
Manager的默认内存只有1G,在数据量比较大(1T以上)的Spark任务下,内存严重不足,消息响应缓慢,导致FusionInsight健康检查认为NodeManager进程退出,强制重启NodeManager,导致上述问题产生。 解决方式: 调整NodeManager的内存,
防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
检查环境。 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。选择“组件管理”,查看Yarn的“健康状态”是否为“良好”。 是,执行1.c。 否,Yarn状态不健康,执行1.b。 请先修复Yarn异常,任务结束。 确定修改NodeManager的存储目录场景。 更改No
据进行联合分析,提供复杂的IT和OT数据统一分析能力。 图2 跨源IT/OT数据统一分析 使用场景如下: 统一SQL入口 为简化应用系统对接多系统的复杂性,可在HetuEgine添加IoTDB作为数据源,通过HetuEngine的SQL语法查询IoTDB中的数据。 与数据湖中的数据进行关联查询
数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout.ms zkfc对NameNode健康状态检查的超时时间。增大该参数值,可以防止出现双Active NameNode,降低客户端应用运行异常的概率。 单位:毫秒。取值范围:30000~3600000
Manager的默认内存只有1G,在数据量比较大(1T以上)的Spark任务下,内存严重不足,消息响应缓慢,导致FusionInsight健康检查认为NodeManager进程退出,强制重启NodeManager,导致上述问题产生。 解决方法: 调整NodeManager的内存,
ALM-12084 ommdba密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否过期,如果过期,则发送告警。 当系统中ommdba密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12084 重要 是 告警参数
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service,具体请参考使用External Shuffle Service提升性能。
数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout.ms zkfc对NameNode健康状态检查的超时时间。增大该参数值,可以防止出现双Active NameNode,降低客户端应用运行异常的概率。 单位:毫秒。取值范围:30000~3600000
/hbase/WALs/xxxx.meta”报错。 由于meta表在HDFS故障恢复后的上线过程中无法记录上线状态,导致meta表无法正常上线,且Manager实例健康检查自动恢复重试存在重试次数限制,最终导致meta表上线失败。因此,HDFS退出安全模式后,需要手动介入进行恢复。 处理步骤 确认HDFS已解决相关异常问题,退出安全模式。
ive服务。 进入beeline客户端,在创建表时指定Location为OBS文件系统路径。 beeline 例如,创建一个表“test”,该表的Location为“obs://OBS并行文件系统名称/user/hive/warehouse/数据库名/表名”: create table
Kafka开发应用时,需要准备的开发和运行环境如表1所示: 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装和配置IntelliJ
进行应用开发,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK Java