检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备好自定义jar包,并上传到客户端节点。本操作以“spark-test.jar”为例,上传到客户端节点“/tmp”目录下。 配置参数 以客户端安装用户,登录安装客户端的节点,执行如下命令: cd {客户端安装目录} source bigdata_env 如果集群已启用Kerberos认证(安全模式),执行
了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”,以强制新数据写入新的文件组,或设置为更高的值以确保新数据被“填充”到现有小的文件组中,直到达到指定大小为止,但其会增加摄取延迟。
概述 “ClickHouse输出”算子,用于配置已生成的字段输出到ClickHouse表的列。 输入与输出 输入:需要输出的字段 输出:ClickHouse表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 数据库名 配置ClickHouse表所在的数据库 string
务,才能使保存的角色配置生效。 设置用户在指定Yarn队列提交任务的权限 在“配置资源权限”的表格中选择“待操作集群的名称 > Yarn > 调度队列 > root”。 在指定队列的“权限”列,勾选“提交”。 设置用户在指定Yarn队列管理任务的权限 在“配置资源权限”的表格中选择“待操作集群的名称
表1 配置文件 文件名称 作用 core-site.xml 配置HDFS详细参数。 hdfs-site.xml 配置HDFS详细参数。 user.keytab 对于Kerberos安全认证提供HDFS用户信息。 krb5.conf Kerberos server配置信息。 不同集群的“user
手动指定运行Yarn任务的用户 配置场景 目前YARN支持启动NodeManager的用户运行所有用户提交的任务,也支持以提交任务的用户运行任务。 配置描述 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,选择“全部配置”。在搜索框中输入参数名称。
ode会继续提供服务。如图4所示。 图4 选项设置为1 这个原生的配置项,存在一定的缺陷。当DataNode的数据存放卷数量不一致的时候,就需要对每个DataNode进行单独配置,而无法配置为所有节点统一生成配置文件,造成用户使用的不便。 例如:集群中存在3个DataNode节点
用户可通过选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”,修改 “yarn.nodemanager.unhealthy.alarm.threshold”的值来配置阈值(修改该参数不用重启Yarn,就可以生效)。 阈值默认为零,当不健康节点数
obManager的一个模块,和JobManager共进程。默认情况下,web服务器监测的端口是8081,用户可以在配置文件“flink-conf.yaml”中配置“jobmanager.web.port”来修改监测端口。 使用Netty和Netty路由器库来处理REST请求和解析URL。
obManager的一个模块,和JobManager共进程。默认情况下,web服务器监测的端口是8081,用户可以在配置文件“flink-conf.yaml”中配置“jobmanager.web.port”来修改监测端口。 使用Netty和Netty路由器库来处理REST请求和解析URL。
同时输出本批次被更新状态的session。 数据规划 在kafka中生成模拟数据(需要有Kafka权限用户)。 确保集群安装完成,包括安装HDFS、Yarn、Spark2x和Kafka服务。 将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”。
同时输出本批次被更新状态的session。 数据规划 在kafka中生成模拟数据(需要有Kafka权限用户)。 确保集群安装完成,包括安装HDFS、Yarn、Spark2x和Kafka服务。 将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”。
需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。
本地使用IDEA工具导入样例工程,等待Maven工程下载相关依赖包,具体操作可参考配置并导入样例工程。 图1 Hive样例工程示例 本地配置好Maven及SDK相关参数后,样例工程会自动加载相关依赖包。 将准备应用开发配置文件中获取的集群配置文件及用户认证文件放置在样例工程的“resources”目录下。
业务进程不可用。 可能原因 磁盘配置无法满足业务需求,磁盘使用率达到上限。 处理步骤 登录MRS Manager,查看该告警阈值是否不合理。 默认90%为合理值,用户可以根据自己的实际需求调节。 是,执行2。 否,执行1.b。 根据实际服务的使用情况在“系统设置 > 阈值配置”中更改告警阈值。
执行如下命令挂载新磁盘。 mount 新磁盘 挂载点 例如:mount /dev/sdd1 /srv/BigData/data1 如果挂载不上,请执行如下命令重载配置后重新挂载。 systemctl daemon-reload 执行如下命令为新磁盘增加omm用户权限。 chown omm:wheel 挂载点
Flink性能调优 优化Flink内存GC参数 配置Flink任务并行度 配置Flink任务进程参数 优化Flink Netty网络通信参数 Flink作业RocksDB状态后端调优 配置Flink作业状态后端冷热数据分离存储 父主题: 使用Flink
FlinkSQL ClickHouse表开发建议 配置多个ClickHouseBalancer实例IP 配置多个ClickHouseBalancer实例IP可以避免ClickHouseBalancer实例单点故障。相关配置(with属性)如下: 'url' = 'jdbc:cli
Flink性能调优 优化Flink内存GC参数 配置Flink任务并行度 配置Flink任务进程参数 优化Flink Netty网络通信参数 父主题: 使用Flink
gz 在“/home/omm/MRS_Log4j_Patch/bin/ips.ini”文件中配置需要打补丁的节点IP(当前集群所有节点IP)。 每行配置一个IP,中间不能有空行。 执行脚本安装补丁。 cd /home/omm/MRS_Log4j_Patch/bin nohup sh