检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
达到消除数据倾斜的效果。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.sql.adaptive.enabled 配置是否启用自适应执行功能。
配置Spark Python3样例工程 操作场景 为了运行MRS产品Spark2x组件的Python3接口样例代码,需要完成下面的操作。 操作步骤 客户端机器必须安装有Python3,其版本不低于3.6。 在客户端机器的命令行终端输入python3可查看Python版本号。如下显示Python版本为3
原因分析 集群版本和运行的程序包版本不匹配。 处理步骤 参考运行Spark Streaming 对接Kafka0-10样例程序进行相关配置。 当前集群为MRS 2.1.0版本,请如需使用Maven库中的提供的样例程序,请获取spark-streaming-kafka-0-10_2
配置HDFS token的最大存活时间 配置场景 安全模式下,HDFS中用户可以对Token的最大存活时间和Token renew的时间间隔进行灵活地设置,根据集群的具体需求合理地配置。 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。
内容要求:连接balancer写入报错Request Entity Too Large。这是由于Nginx对http请求体大小有限制,而一次写入的数据量超过了这个限制。 规避:修改Nginx配置项client_max_body_size为一个较大的值。 解决:写本地表,不要通过balancer写入数据。
配置流式读取Spark Driver执行结果 配置场景 在执行查询语句时,返回结果有可能会很大(10万数量以上),此时很容易导致JDBCServer OOM(Out of Memory)。因此,提供数据汇聚功能特性,在基本不牺牲性能的情况下尽力避免OOM。 配置描述 提供两种不同
Flume客户端无法连接服务端 问题现象 安装Flume客户端并设置Avro Sink与服务端通信,发现无法连接Flume服务端。 原因分析 服务端配置错误,监测端口启动失败,例如服务端Avro Source配置了错误的IP,或者已经被占用了的端口。 查看Flume运行日志: 2016-08-31
SSL/TLS对端证书校验行为。 取值范围为: 'never'、'allow'、'try'、'require'。 allow 其他参数说明详细可以参考<ldap_servers>配置参数详解。 图1 OpenLDAP配置 添加完配置后,单击“保存”,在弹出对话框中单击“确定”,配置保存成功后,单击“完成”。
Kafka常用配置参数 本章节内容适用于MRS 3.x及后续版本。 参数入口 请参考修改集群服务配置参数进入Kafka服务参数“全部配置”页面。 常用参数 表1 参数说明 配置参数 说明 缺省值 log.dirs Kafka数据存储目录列表,以逗号分隔多个目录。 %{@auto.detect
tableName=testtb batchRows=10000 batchNum=10 表1 配置说明表 配置名称 默认值 含义 loadBalancerIPList - 必填参数,配置为LoadBalance的IP列表。 登录FusionInsight Manager,选择“集群
tableName=testtb batchRows=10000 batchNum=10 表1 配置说明表 配置名称 默认值 含义 loadBalancerIPList - 必填参数,配置为LoadBalance的IP列表。 登录FusionInsight Manager,选择“集群
ALM-12062 OMS参数配置同集群规模不匹配 告警解释 系统每一个小时,整点检查一次OMS参数配置和集群规模是否匹配,如果检查OMS配置的参数不足以支撑当前的集群规模,系统将发送此告警。待用户修改OMS参数配置,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
默认情况下,系统会将container日志收集到HDFS中。如果您不需要将container日志收集到HDFS中,可以配置参数见表3。具体配置操作请参考修改集群服务配置参数。 表3 参数说明 配置参数 说明 默认值 yarn.log-aggregation-enable 设置是否将container日志收集到HDFS中。
Yarn常用配置参数 队列资源分配 Yarn服务提供队列给用户使用,用户分配对应的系统资源给各队列使用。完成配置后,您可以单击“刷新队列”按钮或者重启Yarn服务使配置生效。 参数入口: 用户可在Manager系统中,选择“租户资源 > 动态资源计划 > 队列配置”。 参数说明以
properties”中“security.protocol”的值为“SASL_SSL”或者“SSL”。 进入“客户端安装目录/Kafka/kafka/bin”使用shell命令时,根据上一步中配置的协议填写对应的端口,例如使用配置的“security.protocol”为“SASL_SSL”,则需要填写SASL_SSL协议端口,默认为21009:
Yarn节点配置调优 操作场景 合理配置大数据集群的调度器后,还可通过调节每个节点的可用内存、CPU资源及本地磁盘的配置进行性能调优。 具体包括以下配置项: 可用内存 CPU虚拟核数 物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 如果您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。
properties Windows客户端代码使用SSL功能 下载Kafka客户端,解压后在根目录中找到ca.crt证书文件。 使用ca.crt证书生成客户端的truststore。 在安装了Java的环境下执行命令: keytool -noprompt -import -alias myservercert
--list 执行删除命令后topic数据为空则此topic会立刻被删除,如果有数据则会标记删除,后续Kafka会自行进行实际删除。 父主题: 组件配置类
择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项: 配置项 说明 hoodie.datasource.write.partitionpath.field 配置为多个分区字段,例如:p1,p2,p3。 hoodie
SDK”为“SDKs”中添加的JDK。 图6 修改“Module SDK” 单击“Apply”,单击“OK”。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File > Settings