检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
打印间隔时间超过10s或更长。 是,执行10。 否,执行12。 查看操作系统的“/var/log/message”,查看故障出现时间段是否有sssd频繁重启或者nscd异常信息。 sssd重启样例 Feb 7 11:38:16 10-132-190-105 sssd[pam]:
查询MRS集群版本可用的规格 功能介绍 查询MRS集群版本可用的规格 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/metadata/version/{version_name}/available-flavor 表1 路径参数 参数 是否必选
Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查HBase备份文件保存路径。 停止HBase的上层应用。
该参数未配置时为非安全Kafka。 如果需要配置SSL,truststore.jks文件生成方式可参考“Kafka开发指南 > 客户端SSL加密功能使用说明”章节。 四种类型实际命令示,以ReadFromKafka为例,集群域名为“HADOOP.COM”: 命令1: bin/flink
IAM同步 功能介绍 将IAM用户和用户组同步到manager,指定用户的情况下,会将该用户关联的IAM用户组也同步到manager。 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/clusters/{cluster_id}/iam-sync-user
这种情况下,这个reduce的执行时间将极大影响这个job的运行时间。因此需要将reduce个数减少。 所有的map运行完后,只有个别节点有reduce在运行。这时候集群资源没有得到充分利用,需要增加reduce的个数以便每个节点都有任务处理。 原则三:每个task的执行时间要合理。
被广播的表计算5分钟,超过5分钟该任务会出现超时异常,而这个时候被广播的表的broadcast任务依然在执行,造成资源浪费。 这种情况下,有两种方式处理: 调整“spark.sql.broadcastTimeout”的数值,加大超时的时间限制。 降低“spark.sql.auto
将数据保存在本地磁盘中,而Streaming的计算结果全部在内存中完成,数据源很有可能成为流式系统的最大瓶颈点。 对Kafka的性能调优,有以下几个点: 使用Kafka-0.8.2以后版本,可以使用异步模式的新Producer接口。 配置多个Broker的目录,设置多个IO线程,
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
以root用户登录主NameNode节点,用户密码为安装前用户自定义,请咨询系统管理员。 使用ping命令检查主NameNode与该JournalNode之间的网络状况,是否有超时或者网络不可达的情况。 ping JournalNode的业务IP地址 是,执行14。 否,执行15。 联系网络管理员处理网络故障,故障恢复后等待5分钟,查看告警是否清除。
该目录继续增加条目。一旦超过系统最大阈值,继续增加条目会失败。 可能原因 监控目录的条目数超过系统阈值的90%。 处理步骤 检查系统中是否有不需要的文件。 以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询系统管理员。执行cd命令进入客户端安装目录,然后执行source
"/tmp/hadoop-yarn/staging/" | wc -l “/tmp/hadoop-yarn/staging/”目录为默认值,如果客户有修改,可以通过mapred-site.xml文件配置项“yarn.app.mapreduce.am.staging-dir”获取此路径。 比
SparkStreaming访问Kafka,只能读到一个分区。 HBase组件问题: HBase健康检查时,遇到非HBase问题引起的错误码与HBase本身的错误码有重合,导致误告警。 在MRS Manager界面上无法修改HBase服务端的部分配置文件(hdfs-site.xml、core-site.xml、mapred-site
org.apache.spark.SparkConf 分布式模式下,应注意Driver和Executor之间的参数传递 在Spark编程时,总是有一些代码逻辑中需要根据输入参数来判断,这种时候往往会使用这种方式,将参数设置为全局变量,先给定一个空值(null),在main函数中,实例化
S为例) 可能原因三:端口被占用,每一个Spark任务都会占用一个SparkUI端口,默认为22600,如果被占用则依次递增端口重试。但是有个默认重试次数,为16次。16次重试都失败后,会放弃该任务的运行。 查看端口是否被占用: ssh -v -p port username@ip
被广播的表计算5分钟,超过5分钟该任务会出现超时异常,而这个时候被广播的表的broadcast任务依然在执行,造成资源浪费。 这种情况下,有两种方式处理: 调整“spark.sql.broadcastTimeout”的数值,加大超时的时间限制。 降低“spark.sql.auto
将数据保存在本地磁盘中,而Streaming的计算结果全部在内存中完成,数据源很有可能成为流式系统的最大瓶颈点。 对Kafka的性能调优,有以下几个点: 使用Kafka-0.8.2以后版本,可以使用异步模式的新Producer接口。 配置多个Broker的目录,设置多个IO线程,
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
中上报该告警的服务实例和主机名。 检查是否存在慢盘故障。 在FusionInsight Manager的告警列表中,查看1中的告警实例是否有“慢盘故障”或“磁盘不可用”告警产生。 是,执行3。 否,执行5。 参考“ALM-12033 慢盘故障”或“ALM-12063 磁盘不可用”的处理步骤处理该故障。
检查ZooKeeper服务状态。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中查看是否有“ALM-12007 进程故障”告警产生。 是,执行2。 否,执行5。 在“ALM-12007 进程故障”的“定位信息”中查看“服务名”是否为“ZooKeeper”。