检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看Spark应用调测结果 操作场景 Spark应用程序运行完成后,您可以查看运行结果数据,也可以通过Spark WebUI查看应用程序运行情况。 操作步骤 查看Spark应用运行结果数据。 结果数据存储路径和格式已经与Spark应用程序指定,您可以通过指定文件中获取到运行结果数据。
以root用户登录记录的管理IP地址,并执行df -lh命令,查看磁盘占用率为100%的挂载目录,例如“${BIGDATA_DATA_HOME}/kafka/data1”。 进入该目录,执行du -sh *命令,查看该目录下各文件夹的大小。查看是否存在除“kafka-logs”目录外的其他文件,并判断是否可以删除或者迁移。
oldest_queries:根据执行顺序终止查询。 finish_percentage_queries:根据查询执行百分比终止查询。执行百分比最小的查询将首先被终止。 high_memory_queries:根据内存使用量终止查询。具有较高内存使用量的查询将首先被终止,以便在查询终止次数最少的情况下,
”,根据系统当前时间计算任务已执行的时间。查看已执行的时间是否大于超时时间。 是,执行4。 否,执行10。 请根据业务合理评估任务的预期执行时间,并与任务的超时时间对比。若超时时间设置过小,请设置客户端的超时时间(“mapreduce.application.timeout.alarm”或“spark
在Linux环境中查看Spark程序调测结果 操作场景 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 登录Spark WebUI查看应用程序运行情况。 通过Spark日志获取应用程序运行情况。 操作步骤 查看Spark应用运行结果数据。
如何修复长时间处于RIT状态的Region 问题 在HBase WebUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如
在Linux环境中查看Spark程序调测结果 操作场景 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 登录Spark WebUI查看应用程序运行情况。 通过Spark日志获取应用程序运行情况。 操作步骤 查看Spark应用运行结果数据。
HBase文件丢失导致Region状态长时间为RIT 用户问题 数据迁移到新集群后,HBase的Region状态为RIT或FAILED_OPEN。 原因分析 登录到集群的Core节点查看RegionServer日志,报错: “Region‘3b3ae24c65fc5094bc2a
由于主备Master节点时间未同步导致ZooKeeper服务不可用 问题背景与现象 MRS集群ZooKeeper服务无法启动,出现ZooKeeper服务不可用告警。 原因分析 以root用户登录主、备Master节点,执行ntpq -p命令查看两节点时间未同步。 解决办法 以ro
选中“告警ID”为“44005”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 单击“组件管理 > Presto > 实例 > Coordinator(对应上报告警实例IP地址) > 定制 > Presto进程GC时间”。单击“确定”,查看GC时间。 查看Coordinator进程的GC时间是否大于5秒。
准备Linux客户端环境 背景信息 安装Linux客户端用于拓扑的提交。 前提条件 确认Storm组件已经安装,并正常运行。 客户端机器的时间与集群的时间要保持一致,时间差要小于5分钟。 操作步骤 下载Storm客户端程序。 登录MRS Manager系统。 选择“服务管理 > Storm
instant时间戳,必选 示例 call rollback_to_instant(table => 'h1', instant_time=>'20220915113127525'); 注意事项 只能依次回滚最新的commit时间戳 系统响应 可在driver日志和客户端中查看命令运行成功或失败。
选中“告警ID”为“43009”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory的GC时间”。单击“确定”,查看GC时间。 查看JobHistory进程的GC时间是否大于12秒。
GC > RegionServer的GC时间” ,单击“确定”,查看该图表中“GC中回收old区所花时长”监控项的值是否连续3个检测周期大于阈值(默认阈值为5秒)。 是,执行4。 否,执行6。 图2 RegionServer的GC时间 查看JVM的当前配置 在FusionInsight
Flink作业checkpoint完成时间超过阈值 本章节适用于MRS 3.1.5及以后版本。 告警解释 系统每30秒为周期检查Flink作业CheckPoint完成时间是否超过阈值(默认值:600秒),如果超过阈值则产生告警。作业CheckPoint完成时间小于或等于阈值,告警恢复。 告警属性
选中“告警ID”为“44006”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 单击“组件管理 > Presto > 实例 > Worker(对应上报告警实例IP地址) > 定制 > Presto进程GC时间”。单击“确定”,查看GC时间。 查看Worker进程的GC时间是否大于5秒。 是,执行1
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Loader进程的垃圾回收(GC)占用时间,当连续5次检测到Loader进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID
如何修复长时间处于RIT状态的Region 问题 在HBase WEBUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如
CPU,以及70%的内存。 查看单个服务资源使用状态。 在图表区域的服务选择框中选择指定服务,“图表”中会显示服务池此服务的资源使用状态。 用户可以选择页面自动刷新间隔的设置。 在“时间区间”选择需要查看服务资源的时间段。 单击“查看”可以查看相应时间区间的服务资源数据。 自定义服务资源报表。
bigdata.mrs.test 确认作业配置信息,单击“确定”,完成作业的新增。 作业提交成功中,可在作业列表中查看作业运行状态及执行结果,等待作业状态变为“已完成”,可查看相关程序分析结果。 通过集群客户端提交作业 安装MRS集群客户端,具体操作可参考安装MRS集群客户端。 MRS