检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
Executor进程Crash导致Stage重试 问题 在执行大数据量的Spark任务(如100T的TPCDS测试套)过程中,有时会出现Executor丢失从而导致Stage重试的现象。查看Executor的日志,出现“Executor 532 is lost rpc with driver
退订MRS集群后在ECS中退订弹性云服务器时报异常如何处理? 问: 退订MRS集群后,在ECS中退订弹性云服务器时报异常如何处理? 答: 在使用的MRS集群中查询该弹性云服务器的ID确认没有使用。 在ECS控制台上找到需要退订的服务器单击“MRS使用中”将机器进行解锁。 再次单击“退订”。
开启ClickHouse租户CPU优先级配置 本章节内容仅适用于MRS 3.2.0及之后版本。 操作场景 ClickHouse租户支持CPU优先级,该特性依赖OS的CAP_SYS_NICE能力,需要开启该能力才可以生效。 操作步骤 使用root用户登录ClickHouseServer实例节点,执行如下命令:
假设一个集群,共有主机100台,分别在两个机房中:机房A有40台主机,机房B有60台主机。在机房A中,物理机架Ra1有11台主机,物理机架Ra2有29台。在机房B中,物理机架Rb1有6台主机,物理机架Rb2有33台主机,物理机架Rb3有18台主机,物理机架Rb4有3台主机。 根据以上的
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 无法分配PID给新的业务进程,业务进程不可用。 可能原因 节点同时运行的进程过多,需要扩展“pid_max”值。
连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测连接到HiveServer的Session数占HiveServer允许的最大session数的百分比,该指标可在Hive服务监控界面查看。连接到HiveServer的session数占最大允许
6版本(CentOS 7.6) 同时为弹性云服务分配足够的磁盘空间,例如“40GB”。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 弹性云服务器操作系统已安装NTP服务,且NTP服务运行正常。 如果未安装,在配置了yum源的情况下,可执行yum
nodemanager.resource.cpu-vcores 表示该节点上YARN可使用的虚拟CPU个数,默认是8。 目前推荐将该值设置为逻辑CPU核数的1.5~2倍之间。 8 物理CPU使用百分比 建议预留适量的CPU给操作系统和其他进程(数据库、HBase等)外,剩余的CPU核都分配给YARN。可以通过如下配置参数进行调整。
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 okerberos、oldap等端口被占用时,会导致认证失败,可能会导致作业运行失败。 controller、pms等端口被占用时,会导致进程故障,可能会影响弹性扩缩容性能。
共享内存大小 主机内存使用率 已使用内存 网络写信息 主机网络写包数 主机网络写包错误数 主机网络发送速率 主机网络写包丢包数 CPU 改变过优先级的进程占CPU的百分比 用户空间占用CPU百分比 内核空间占用CPU百分比 主机CPU使用率 CPU总时间 CPU闲置时间 主机状态 主机文件句柄使用率
待操作集群的名称 > 主机 > 主机状态 > 主机文件句柄使用率”修改阈值。 平滑次数为1,主机文件句柄使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机文件句柄使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12053 重要 是 告警参数 参数名称
查看主机图表,进程和资源信息。 单击“图表”,“进程”和“资源”页签,可直接查看该主机的全量监控图表信息。 图表页面可直接查看该主机的全量监控图表信息 进程页面显示了当前主机上已部署服务实例的角色进程信息,例如进程状态、PID、进程运行时间等,并可直接在线查看各进程的日志文件内容。
90.0% 主机状态 主机文件句柄使用率 统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率 主机PID使用率。 90% 网络状态 TCP临时端口使用率 统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息 读包错误率 统计采集周期内该主机上该网口的读包错误率。
HetuEngine依赖Yarn服务提供的资源分配、控制等能力,需要根据实际业务和集群的服务器配置情况调整Yarn服务配置,以获得最佳的性能效果。 登录FusionInsight Manager页面。 选择“集群 > 服务 > Yarn > 配置 > 全部配置“,参考表1配置Yarn服务参数。 表1
弹性公网IP地址为弹性云服务器绑定的弹性公网IP地址。 集群节点镜像的用户名是root。 登录弹性云服务器(SSH密码方式) 本地使用Windows操作系统 如果本地主机为Windows操作系统,可以按照下面方式登录弹性云服务器。下面步骤以PuTTY为例。 登录MapReduce服务管理控制台。
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 可能原因 浮动IP不存在。 没有主DBServer实例。 主备DBServer进程都异常。 处理步骤
获取MRS集群主机列表接口时提示用户无权限 用户问题 使用AK/SK获取MRS集群主机列表/v1.1/<project_id>/clusters/<cluster_id>/hosts接口时,提示用户无权限“User do not have right to access cluster”。
产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 可能原因 Hive服务异常。 KrbServer服务异常。
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 上层服务通过knox下发的请求无法正常处理响应。 可能原因 knox进程异常。 处理步骤 检查knox进程是否异常。 登录FusionInsight