检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 在各个数据节点准备并安装好新磁盘,并格式化磁盘。 已安装好Kafka客户端。 更改Broker单个实例的存储目录时,保持活动的Broker实例数必须大于创建主题时指定的备份数。 操作步骤 更改Kafka角色的存储目录 以root用户登录到安装Kafka服务的各个数据节点中,执行如下操作。
CHAR”时实际长度不足则空格补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 常量值:配置符合类型的常量值。 map 是 无 数据处理规则 生成指定类型的常量字段。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下图: 配置“增加常量字段”算子,增加两个字段C和D:
默认值 mapreduce.reduce.shuffle.max-host-failures MR任务在reduce过程中读取远端shuffle数据允许失败的次数。当设置次数大于5时,可以降低客户端应用的失败率。该参数适用于MRS 3.x版本。 5 mapreduce.client.submit
Spark Core企业级能力增强 配置Spark HA增强高可用 配置Spark Native引擎 配置Spark事件队列大小 配置parquet表的压缩格式 使用Ranger时适配第三方JDK 配置Spark小文件自动合并 使用Spark小文件合并工具说明 配置流式读取Spark
1048576 设置单个HDFS目录下最大可容纳的文件数目。保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。 用户尽量将数据做好存储规划,可以按时间、业务类型等分类,不要单个目录下直属的文件过多,建议使用默认值,单个目录下约100万条。 父主题: 使用HDFS
1048576 设置单个HDFS目录下最大可容纳的文件数目。保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。 用户尽量将数据做好存储规划,可以按时间、业务类型等分类,不要单个目录下直属的文件过多,建议使用默认值,单个目录下约100万条。 父主题: 使用HDFS
取值范围 dfs.client.hedged.read.threshold.millis HDFS客户端决定是否启动多路读取之前等待第一个数据块的第一个字节的时间,单位:毫秒。 250 大于等于1 dfs.client.hedged.read.threadpool.size 多路
string 否 空字符串 被拼接字段名 配置需要被拼接字段名。 字段名:需填写上一个转换步骤生成的字段名,可添加多个。 map 是 无 数据处理规则 按顺序将“被拼接字段名”中配置的字段的值,通过连接符拼接后,赋给“输出字段名”。 当有字段的值为null时,会转化为空字符串,再与其他字段值拼接。
MEM”参数设置内存。 示例 在执行spark wordcount计算中。1.6T数据,250个executor。 在默认参数下执行失败,出现Futures timed out和OOM错误。 因为数据量大,task数多,而wordcount每个task都比较小,完成速度快。当tas
string 否 空字符串 被拼接字段名 配置需要被拼接字段名。 字段名:需填写上一个转换步骤生成的字段名,可添加多个。 map 是 无 数据处理规则 按顺序将“被拼接字段名”中配置的字段的值,通过连接符拼接后,赋给“输出字段名”。 当有字段的值为null时,会转化为空字符串,再与其它字段值拼接。
action是否正常。因为当长时间不做compaction时list性能会变差。 在事实表与维度表关联场景中可以按表设置TTL降低状态后端数据量 具体使用指导参考通过表级TTL进行状态后端优化。 合理设置并行度 任务运行的速度和并行度相关,一般来说提升并行度能有效提升读取的速度,
默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
Ranger策略为用户赋权。 若用户既没有加入用户组也没有设置角色,通过此用户登录FusionInsight Manager后,用户将无权查看或操作。 根据业务实际需要填写“描述”。 单击“确定”完成用户创建。 “人机”用户创建成功后,通常需要修改初始密码后才可以正常使用,可以使用该用户登录FusionInsight
NameNode应设内存大小。 该参数项的内存大小取值如下: high:4G medium:2G low:256M custom:根据实际数据量大小在GC_OPTS中设置内存大小。 custom GC_OPTS JVM用于gc的参数。仅当GC_PROFILE设置为custom时该
值。 类型:表达式输出结果类型,建议选择“VARCHAR”。 时间格式:表达式输出结果格式。 长度:表达式输出结果长度。 map 是 无 数据处理规则 对字段值进行运算后生成新的字段。 当前新字段的类型只能为VARCHAR。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
partitions, replicas) Partition的副本数不要超过节点个数 Kafka中Topic的Partition的副本是为了提升数据的可靠性而存在的,同一个Partition的副本会分布在不同的节点,因此副本数不允许超过节点个数。 Consumer客户端的配置参数“fetch
启动指定个数Consuemr线程来消费 // 注意:当该参数大于待消费Topic的Partition个数时,多出的线程将无法消费到数据 for (int threadNum = 0; threadNum < CONCURRENCY_THREAD_NUM; threadNum++)
MRS 1.9.3.1 发布时间 2020-09-04 解决的问题 MRS Manager 解决自定义集群缩容Task节点失败问题 MRS大数据组件 解决Hive和Spark路径下adapter-hadoop-wrapper-file-system包版本错误问题 解决HBase服务
配置”,搜索并配置表1中的参数,参数支持动态生效,保存配置后登录hbase shell执行update_all_config即生效。 跳过损坏的文件可能会导致数据丢失,因此如下参数设置为“true”后,如果跳过了损坏的StoreFile文件或WAL文件,服务会上报“ALM-19025 HBase存在
值。 类型:表达式输出结果类型,建议选择“VARCHAR”。 时间格式:表达式输出结果格式。 长度:表达式输出结果长度。 map 是 无 数据处理规则 对字段值进行运算后生成新的字段。 当前新字段的类型只能为VARCHAR。 样例 通过“CSV文件输入”算子,生成两个字段A和B。