检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复。 滚动重启10个节点耗时约30分钟。 Hue 直接重启 重启期间Hue页面无法访问。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。 - Sqoop 直接重启 重启期间无法提交作业。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。
滚动重启时,重启节点数据流将停止,启动后恢复 滚动重启10个节点耗时约30分钟 Hue 直接重启 重启期间Hue页面无法访问 直接重启耗时约5分钟 滚动重启 不支持滚动重启 - Loader 直接重启 重启期间无法提交作业 直接重启耗时约5分钟 滚动重启 不支持滚动重启 - Kafka 直接重启 直接重启业务会中断 直接重启耗时约5分钟。
Manager首页,选择“集群 > 服务 > JobGateway > 实例”。 勾选上报告警的实例,选择“更多 > 滚动重启实例”。 重启期间服务业务可能受损或中断,建议选择业务低峰期操作。 查看实例重启后运行状态是否为良好。 是,执行5。 否,执行6。 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。
Manager首页,选择“集群 > 服务 > JobGateway > 实例”。 勾选上报告警的实例,选择“更多 > 滚动重启实例”。 重启期间服务业务可能受损或中断,建议选择业务低峰期操作。 查看实例重启后运行状态是否为良好。 是,执行5。 否,执行6。 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。
滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复。 滚动重启10个节点耗时约30分钟。 Hue 直接重启 重启期间Hue页面无法访问。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。 - Sqoop 直接重启 重启期间无法提交作业。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。
/tmp目录权限不对导致DBserver实例状态一直处于Restoring 问题背景与现象 DBServer实例状态一直是Restoring状态,重启之后仍然不恢复。 原因分析 查看“/var/log/Bigdata/dbservice/healthCheck/dbservice_processCheck
滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复。 滚动重启10个节点耗时约30分钟。 Hue 直接重启 重启期间Hue页面无法访问。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。 - Sqoop 直接重启 重启期间无法提交作业。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。
滚动重启时,重启节点数据流将停止,启动后恢复 滚动重启10个节点耗时约30分钟 Hue 直接重启 重启期间Hue页面无法访问 直接重启耗时约5分钟 滚动重启 不支持滚动重启 - Loader 直接重启 重启期间无法提交作业 直接重启耗时约5分钟 滚动重启 不支持滚动重启 - Kafka 直接重启 直接重启业务会中断 直接重启耗时约5分钟。
滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复。 滚动重启10个节点耗时约30分钟。 Hue 直接重启 重启期间Hue页面无法访问。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。 - Sqoop 直接重启 重启期间无法提交作业。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。
在所有客户端的查询任务都执行完成后,选择“实例”页签,勾选所有“Impalad”实例并重启。 重启全部实例,服务不可用。重启单个实例,会导致当前实例节点正在执行的任务失败,服务可用。 重启完成后检查告警是否消失。 是,操作结束。 否,执行6。 收集故障信息。 在FusionInsight
滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复。 滚动重启10个节点耗时约30分钟。 Hue 直接重启 重启期间Hue页面无法访问。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。 - Sqoop 直接重启 重启期间无法提交作业。 直接重启耗时约5分钟。 滚动重启 不支持滚动重启。
系统以用户配置的告警周期检查作业Task持续背压时间,如果FlinkServer作业Task持续背压时间达到用户配置的阈值,则发送告警。当作业Task背压恢复或者作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45637 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
准备一个应用程序运行测试的Linux环境。 准备运行调测环境 在弹性云服务器管理控制台,申请一个新的弹性云服务器,用于应用开发、运行、调测。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的网卡需要与MRS集群在同一个网段中。
MRS集群内部分组件支持使用自定义的第三方jar包来满足组件的定制化需求,如果用户应用在使用组件时调用了第三方jar包,可放置到每个节点上指定目录中,重启组件后该目录下的jar会被相应的组件程序自动加载。 放置目录为:组件安装节点的“<集群安装目录>/third_lib/<组件名>”目录。 例如:
memory-mb”和“yarn.nodemanager.resource.cpu-vcores”的值,然后重启NodeManager实例。查看该告警是否消除。 NodeManager重启过程中,提交到该节点的Container可能会重试到其他节点。 是,处理完毕。 否,执行6。 检查队列最大资源容量设置。
DBServer启动失败 问题背景与现象 DBService组件启动失败,重启还是失败,实例状态一直为正在恢复状态。 图1 DBService 的状态 原因分析 查看DBService的日志/var/log/Bigdata/dbservice/DB/gs_ctl-current.log,报如下错误。
在弹性云服务管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。 其他配置参数详细信息,请参见“弹性云服务器 > 快速入门 > 购买并登录Windows弹性云服务器” 方法二:使用本机
例如,用户可以选择操作系统为Euler的弹性云服务器准备操作。 同时为弹性云服务分配足够的磁盘空间,例如“40GB”。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 如果不同,请修改弹性云服务器安全组或配置弹性云服务器安全组的出入规则允许MRS集群所有安全组的访问。
在弹性云服务管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。 其他配置参数详细信息,请参见“弹性云服务器 > 快速入门 > 购买并登录Windows弹性云服务器” 使用本机访问MR
告警”,查找告警“ALM-47002 MemArtsCC磁盘故障”,根据告警信息找到状态异常的磁盘路径。 请联系运维人员,查看磁盘是否故障。 是,更换磁盘,重启故障节点的CCSideCar和CCWorker角色,执行3。 否,执行4。 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。