检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager系统,具体请参见访问FusionInsight Manager(MRS 3.x及之后版本)。 选择“集群 > 待操作集群名称 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader WebUI”界面。 图1 Loader WebUI界面
固定宽度文件输入 概述 “固定宽度文件输入”算子,将文件的每一行,按可配置长度的字符或字节,转换成多个输入字段。 输入与输出 输入:文本文件。 输出:多个字段。 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 换行符 用户根据数据实际情况,填写字符串作为换行符。
EL操作转换 概述 “EL操作转换”算子,对字段值进行运算后生成新的字段,目前支持的算子有:md5sum、sha1sum、sha256sum和sha512sum等。 输入与输出 输入:需要转换的字段 输出:经过EL表达式转换后的字段 参数说明 表1 算子参数说明 参数 含义 类型
过滤行转换 概述 “过滤行转换”算子,用于配置逻辑条件过滤掉含触发条件的行。 输入与输出 输入:用来做过滤条件的字段 输出:无 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 条件逻辑连接符 配置条件逻辑连接符,可配置“AND”或“OR”。 enum 是 AND
CarbonData故障处理 当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致 executor内存不足导致查询性能下降 父主题: 使用CarbonData(MRS 3.x及之后版本)
完整迁移Storm业务 操作场景 该任务指导用户通过Storm业务完整迁移的方式转换并运行完整的由Storm API开发的Storm拓扑。 操作步骤 打开Storm业务工程,修改工程的pom文件,增加“flink-storm” 、“flink-core”和“flink-streaming-java_2
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一,该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件(Hudi不再使用的数据文件),这不但可以节省Hudi表List过程的时间,也可以缓解存储压力。 规则 Hudi表必须执行Clean。
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 set hoodie.tableName.consume.mode=INCREMENT
Flink流式读Hudi表建议 设置合理的消费参数避免File Not Found问题 当下游消费Hudi过慢,上游写入端会把Hudi文件归档,导致File Not Found问题。优化建议如下: 调大read.tasks。 如果有限流则调大限流参数。 调大上游compaction、archive、clean参数。
Flink on Hudi作业参数规则 Flink作业参数配置规范 Flink作业参数配置规范如下表所示。 表1 Flink作业参数配置规范 参数名称 是否必填 参数描述 建议值 -c 必填 指定主类名。 根据实际情况而定 -ynm 必填 Flink Yarn作业名称。 根据实际情况而定
Flink SQL逻辑开发规则 维表lookup join场景维度表个数不超过五个 Hudi维度表都在TM heap中,当维表过多时heap中保存的维表数据过多,TM会不断GC,导致作业性能下降。 【示例】lookup join维表数5个: CREATE TABLE table1(id
ClickHouse集群业务规划 集群规模 建议单集群不超过256节点规模。 集群负载 对于不同业务负载的业务,需要分开集群部署,便于不同负载的业务进行资源隔离。 集群并发 由于ClickHouse单个SQL会最大化使用每个主机上的CPU/内存/IO资源,对于复杂SQL查询(复杂
调测Storm应用 生成Storm应用Jar包 在Linux环境中调测Storm应用 查看Storm应用调测结果 父主题: Storm开发指南
Kafka应用开发概述 Kafka应用开发简介 Kafka应用开发常用概念 Kafka应用开发流程介绍 父主题: Kafka开发指南
Flink应用开发概述 Flink应用开发简介 Flink应用开发常用概念 Flink应用开发流程介绍 父主题: Flink开发指南
调测Flink应用 编译并运行Flink应用 查看Flink应用运行结果 父主题: Flink开发指南
Impala应用开发概述 Impala应用开发简介 Impala应用开发常用概念 Impala应用开发流程介绍 父主题: Impala开发指南
HBase应用开发概述 HBase应用开发简介 HBase应用开发常用概念 HBase应用开发流程介绍 父主题: HBase开发指南
HDFS应用开发概述 HDFS应用开发简介 HDFS应用开发常用概念 HDFS应用开发流程介绍 父主题: HDFS开发指南