检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Tez或者Spark在HDFS上库路径被删除。 处理步骤 检查Tez和Spark库路径。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行以下命令,检查“hdfs://hacluster/user/{用户名}/.Trash/Current/ ”目录下是否存在该tezlib或者sparklib目录。
审计日志 对于审计日志来说,记录了某个时间点某个用户从哪个IP发起对HiveServer或者MetaStore的请求以及记录执行的语句是什么。 如下的HiveServer审计日志,表示在2016-02-01 14:51:22 用户user_chen向HiveServer发起了show
打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机地址。 以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 若内存使用率超过阈值,对内存进行扩容。 执行命令free -m | grep Mem\: |
Spark Python API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: pyspark.SparkContext:是Spark的对外接口。负责向调用
Spark Python API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: pyspark.SparkContext:是Spark的对外接口。负责向调用
Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,查看该告警的主机名称和网卡名称。 检查网卡是否配置了主备bond模式。 以omm用户登录告警所在节点,执行ls -l /proc/net/bonding命令,查看该节点是否存在“/proc/net/bonding”目录。 是
clientPath:客户端安装路径,可以包含多个路径,以空格分隔多个路径。注意路径不要以“/”结尾。 user:节点用户名。 password:节点用户密码信息。 如果执行失败,请在执行目录的work_space/log_XXX下查看node.log日志。 配置文件中包含认
阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。 当Hive数据仓库空间使用率小于或等于阈值时,告警恢复。用户可通过增加仓库容量或释放部分已使用空间的方式降低仓库空间使用率。 告警属性 告警ID 告警级别 可自动清除 16001 严重 是 告警参数
对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Doris > CPU和内存 >
在FusionInsightManager页面,选择“运维 > 告警 > 告警”,在实时告警列表中,单击此告警前的,在“定位信息”中查看角色名并确定实例的IP地址。 选择“运维 > 日志 > 下载”。 在“服务”中勾选操作集群的“IoTDB”,单击“确定”。 在“主机”勾选1查看到的主机,单击“确定”。
PartitionName 产生告警的设备分区名。 对系统的影响 造成服务数据无法写入,业务系统运行不正常。 可能原因 硬盘存在坏道等故障。 处理步骤 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域,从“定位信息”中获取“HostName”
可能原因 ZooKeeper zxid低32位超过设定阈值。 处理步骤 登录Manager页面,选择“集群 > 服务 > ZooKeeper”,在“概览”页面的右上角选择“更多 > 滚动重启服务”。在弹出的界面中输入当前用户的密码,单击“确定”。在“滚动重启服务”页面单击“确定”,等待ZooKeeper服务滚动重启完成。
在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在实时告警列表中,单击此告警前的,在“定位信息”中查看角色名并确定实例的IP地址。 选择“运维 > 日志 > 下载”。 在“服务”中勾选操作集群的“IoTDB”,单击“确定”。 在“主机”勾选1查看到的主机,单击“确定”。
前集群未启用Kerberos认证,则无需执行此命令。 当用户为“人机”用户时:执行kinit opentsdbuser认证用户 当用户为“机机”用户时:下载用户认证凭据文件,保存并解压获取用户的user.keytab文件与krb5.conf文件,进入解压后的user.keytab目录下,执行kinit
告警是否清除。 是,结束。 否,执行3。 排查业务中是否写入过的单副本的文件。 是,执行4。 否,执行7。 以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询MRS集群管理员。执行如下命令: 安全模式: cd 客户端安装目录 source bigdata_env
单击“Scheduler”,在“Application Queues”中查看root队列是否资源用满。 是,执行3。 否,执行4。 对Yarn服务的NodeManager实例进行扩容。扩容后,查看告警是否消除。 是,处理完毕。 否,执行6。 检查队列最大资源容量和AM最大资源百分比 查看pending任务对应的队列的资源是否用满。
collect().foreach(println) spark.stop() } } 上面是简单示例,其它sparkSQL特性请参见如下链接:http://archive.apache.org/dist/spark/docs/3.3.1/sql-programming-guide
打开了HDFS允许写入单副本数据开关,即HDFS的配置项“dfs.single.replication.enable”的值设置为“true”。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > HDFS > 配置 > 全部配置”。 在搜索框中搜索“dfs.single
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致任务失败或者数据丢失。 可能原因 网络故障,导致数据无法发送。 处理步骤 以root用户登录故障节点所在主机,执行ping Doris所有节点的IP地址命令查看对端主机是否可以ping通。 是,执行4。 否,执行2。 联系网络管理员恢复网络。
collect().foreach(println) spark.stop() } } 上面是简单示例,其它sparkSQL特性请参见如下链接:http://archive.apache.org/dist/spark/docs/3.3.1/sql-programming-guide