检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark on Hudi表数据维护规范 禁止通过Alter命令修改表关键属性信息:type/primaryKey/preCombineField/hoodie.index.type 错误示例,执行如下语句修改表关键属性: alter table dsrTable set tbl
创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num
CREATE TABLE 本章节主要介绍Doris创建表的SQL基本语法和使用说明。 基本语法 CREATE TABLE [IF NOT EXISTS] [database.]table ( column_definition_list, [index_definition_list]
FE的查询连接端口,可以通过登录Manager,单击“集群 > 服务 > Doris > 配置”,查询Doris服务的“query_port”参数获取。 Doris FE实例IP地址可通过登录MRS集群的Manager界面,单击“集群 > 服务 > Doris > 实例”,查看任一FE实例的IP地址。
Hudi Payload操作说明 本章节仅适用于MRS 3.3.0及之后版本。 Payload介绍 Payload是Hudi实现数据增量更新和删除的关键,它可以帮助Hudi在数据湖中高效的管理数据变更。Hudi Payload的格式是基于Apache Avro的,它使用了Avro
本章节内容仅适用于MRS 3.3.1及之后版本。 操作步骤 登录集群的FusionInsight Manager界面,选择“集群 > 服务 > HBase > 配置 > 全部配置”,进入HBase全部配置界面。 在搜索框中搜索并修改以下参数,开启CCSMap特性: hbase
插入表数据 本章节主要介绍Iceberg插入表数据的SQL基本语法和使用说明。 基本语法 INSERT INTO tableIndentifier [VALUES(value)][SELECT query]; INSERT OVERWRITE tableIndentifier SELECT;
管理CDL ENV变量 操作场景 如果需要将数据抓取至Hudi或者从Hudi抓取数据时,请执行该章节操作创建Hudi环境变量并进行管理。 前提条件 开启Kerberos认证的集群需已参考CDL用户权限管理创建具有CDL管理操作权限的用户。 操作步骤 使用具有CDL管理操作权限的用
Hive是否支持向量化查询 问题 当设置向量化参数hive.vectorized.execution.enabled=true时,为什么执行hive on Tez/Mapreduce/Spark时会偶现一些空指针或类型转化异常? 回答 当前MRS Hive不支持向量化执行。 向量
实例存储目录不变。 对系统的影响 更改Broker角色的存储目录需要重新启动服务,服务重启时无法访问。 更改Broker单个实例的存储目录需要重新启动实例,该节点Broker实例重启时无法提供服务。 服务参数配置如果使用旧的存储目录,需要更新为新目录。 前提条件 在各个数据节点准备并安装好新磁盘,并格式化磁盘。
x及后续版本的启用Kerberos认证的集群。 前提条件 MRS集群管理员已明确业务需求,并准备一个系统用户。 已开启Token认证机制,详细操作请参考Kafka服务端配置。 已安装Kafka客户端。 操作步骤 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。
Hue常用配置参数 参数入口 参数入口,请参考修改集群服务配置参数进入Hue服务“全部配置”页面。 参数说明 Hue常用参数请参见表1。 表1 Hue常用参数 配置参数 说明 缺省值 范围 HANDLER_ACCESSLOG_LEVEL Hue的访问日志级别。 DEBUG ERROR
群资源以满足任务2的执行。 当任务2完成后,集群中存在足够的资源时,任务1将重新开始执行。 操作步骤 参数入口: 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 表1 Preemption配置 参数 描述 默认值 yarn.resourcemanager
ClickHouse数据导入导出 使用ClickHouse客户端导入导出数据 本章节主要介绍使用ClickHouse客户端导入导出文件数据的基本语法和使用说明。 CSV格式数据导入 clickhouse client --host 主机名/ClickHouse实例IP地址 --database
Manager,选择“集群 > 服务 > HBase”。 选择“更多 > 下载客户端”。 图1 下载HBase客户端 下载HBase配置文件,客户端类型选择仅配置文件。 图2 下载HBase配置文件 登录源端Hive集群的FusionInsight Manager。 选择“集群 > 服务 > Hive
0.102 ZooKeeper的quorumpeer实例业务IP: ZooKeeper服务所有quorumpeer实例业务IP。登录FusionInsight Manager,选择“集群 > 服务 > ZooKeeper > 实例”,可查看所有quorumpeer实例所在主机业务IP地址。
Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。
进行广播。 配置为-1时,将不进行广播。 10485760 spark.yarn.queue JDBCServer服务所在的Yarn队列。 在JDBCServer服务端的“spark-defaults.conf”配置文件中进行设置。 default spark.driver.memory
长整型时间转换 概述 “长整型时间转换”算子,用于配置长整型数值与日期的转换。 输入与输出 输入:需要转换的字段 输出:转换后的新字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 转换类型 配置长整型时间转换类型: long to date:长整型数值转换为DATE类型。
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container