检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置FlinkServer重启策略 概述 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。若不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考创建FlinkServer作业在作业开发界面配置(MRS 3.1.0及以后版本)。
配置FlinkServer作业重启策略 FlinkServer作业重启策略介绍 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。如果不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考如何创建FlinkServer作业在作业开发界面配置(MRS
r信息,重启NodeManager服务后通过恢复此前保存的状态信息,就不会丢失在此节点上运行的container进度。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 ResourceManager Restart特性配置如下。 表1
重启MRS集群 在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。 为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
重启MRS集群组件 在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。 为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
r信息,重启NodeManager服务后通过恢复此前保存的状态信息,就不会丢失在此节点上运行的container进度。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 ResourceManager Restart特性配置如下。 表1
重启Hive服务失败 用户问题 修改Hive服务配置后,保存配置失败,Manager页面Hive服务的配置状态为配置失败。 问题现象 用户A在MRS节点后台上打开了Hive相关配置文件且未关闭,此时用户B在MRS Manager页面的“服务管理”中修改Hive配置项,保存配置并重
Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml”配置文件中进行
Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml”配置文件中进行
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
重启YARN,本地日志不被删除 问题 在以下两种情况下重启YARN,本地日志不会被定时删除,将被永久保留。 在任务运行过程中,重启YARN,本地日志不被删除。 在任务完成,日志归集失败后定时清除日志前,重启YARN,本地日志不被删除。 回答 NodeManager有重启恢复机制,详情请参见:
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
ALM-45638 Flink作业失败重启次数超阈值 本章节仅适用于MRS 3.2.0及以后版本。 告警解释 系统以用户配置的告警周期检查Flink作业重启次数,如果重启次数超过用户配置的阈值,则发送告警。当作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45638
数据迁移到MRS前网络准备 数据迁移网络方案说明 进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数
Manager。 单击“服务管理 > HBase > 服务配置”,“参数类别”类型选择“全部配置”,然后在左边窗口选择“HMaster > 系统”。 在“hbase.coprocessor.master.classes”配置项中增加值“org.apache.hadoop.hbase
磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误: 解决方法 找到重启前的主NameNode,进入其数据目录(查看配置项“dfs.namenode
磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误: 解决方法 找到重启前的主NameNode,进入其数据目录(查看配置项“dfs.namenode
关的业务数据进行删除。 MRS集群配置存算分离后,组件可以对接访问OBS文件系统,同时也可以继续访问集群内的HDFS文件系统,具体请参考配置MRS集群通过IAM委托对接OBS。 存算分离功能使用流程: 配置存算分离集群。 请选择如下其中一种配置即可(推荐使用委托方式)。 通过为M
Presto如何配置其他数据源? 本指导以连接MySQL数据源为例。 MRS 1.x及MRS 3.x版本。 登录MRS管理控制台。 单击集群名称进入集群详情页面。 选择“组件管理 > Presto”。设置“参数类别”为“全部配置”,进入Presto配置界面修改参数配置。 搜索“co
配置MRS集群通过IAM委托对接OBS MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算模式。MRS通过IAM服务的“委托”机制进行简单配置, 实现使用ECS自动获取的临时AK/SK访问OBS。避免了AK/SK直接暴露在配置文件中的风险。 通过绑定委托