检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户名 连接MySQL数据源的MySQL用户名。 - 密码 连接MySQL数据源的MySQL用户密码。 - (可选)自定义配置。 单击“增加”可以增加自定义配置参数。配置MySQL数据源自定义参数,参考表2。 表2 MySQL数据源自定义配置参数 参数 描述 取值样例 mysql.auto-reconnect
增加Kafka Topic分区 操作场景 用户可以通过KafkaUI增加Kafka Topic分区。 安全模式集群下,执行分区迁移操作的用户需属于“kafkaadmin”用户组,否则将会由于鉴权失败导致操作失败。 非安全模式下,KafkaUI对任意操作不作鉴权处理。 增加分区 进入KafkaUI界面。
单击“Topics”,进入Topic管理页面。 在待修改项的“Operation”列单击“Action > Alter”,弹出的页面中修改Topic分区。 目前集群只支持增加分区操作,即修改的分区个数要大于原设置的分区个数。 单击“OK”完成修改。 父主题: 管理Kafka Topic
compress'='SNAPPY'); 修改表结构,添加分区并插入数据 alter table test_table add partition(p1='a'); insert into test_table partition(p1='a') select col1,col2 from
执行以下命令登录Hive客户端。 beeline 指定静态分区或者动态分区。 静态分区: 静态分区是手动输入分区名称,在创建表时使用关键字PARTITIONED BY指定分区列名及数据类型。应用开发时,使用ALTER TABLE ADD PARTITION语句增加分区,以及使用LOAD DATA INTO
配置Hive表分区动态覆盖 配置场景 在旧版本中,使用insert overwrite语法覆写分区表时,只支持对指定的分区表达式进行匹配,未指定表达式的分区将被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致。
配置Hive表分区动态覆盖 配置场景 在旧版本中,使用insert overwrite语法覆写分区表时,只支持对指定的分区表达式进行匹配,未指定表达式的分区将被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致。
verifyPartitionPath 配置读取Hive分区表时,是否过滤掉分区表分区路径不存在的分区。 “true”:过滤掉分区路径不存在的分区; “false”:不进行过滤。 false 在spark-submit命令提交应用时,通过“--conf”参数配置是否过滤掉分区表分区路径不存在的分区。 示例: spark-submit
metastore.batch.retrieve.table.partition.max、dbservice.database.max.connections等参数均未能解决。 怀疑是GaussDB的问题,因为增加字段会遍历每个分区执行getPartitionColumnStatistics和alterPartition。
toSQL(SQLText.java:339) 原因分析 drop partition的处理逻辑是将找到所有满足条件的分区,将其拼接起来,最后统一删除。由于分区数过多,拼删元数据堆栈较深,出现StackOverFlow异常。 解决办法 分批次删除分区。 父主题: 使用Hive
ClickHouse开启mysql_port配置 本章节指导用户使用MySQL客户端连接ClickHouse。 操作步骤 登录FusionInsight Manager,选择“集群 > 服务 > ClickHouse >配置 > 全部配置”。搜索参数项“clickhouse-co
verifyPartitionPath 配置读取HIVE分区表时,是否过滤掉分区表分区路径不存在的分区。 “true”:过滤掉分区路径不存在的分区; “false”:不进行过滤。 false 在spark-submit命令提交应用时,通过“--conf”参数配置是否过滤掉分区表分区路径不存在的分区。 示例: spark-submit
ClickHouse分区设计 合理设置分区键,控制分区数在一千以内,分区字段使用整型。 分区part数与查询性能关系 图1 分区part数与查询性能关系图 分区建议 建议使用toYYYYMMDD(pt_d)作为分区键,pt_d是date类型。 如果业务场景需要做小时分区,使用pt_d、
数据库服务器 MySQL数据库的IP地址或域名。 192.168.1.110 端口 MySQL数据库的端口。 3306 数据库名称 MySQL数据库的名称。 sqoop 用户名 拥有MySQL数据库的读、写和删除权限的用户。 admin 密码 用户的密码。 - 使用Agent 是否选择通过Agent从源端提取数据。
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。 当指
jar”,具体MySQL jdbc驱动程序选择参见下表。 表1 版本信息 jdbc驱动程序版本 MySQL版本 Connector/J 5.1 MySQL 4.1、MySQL 5.0、MySQL 5.1、MySQL 6.0 alpha Connector/J 5.0 MySQL 4.1、MySQL
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻集群元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,冻结的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表中,这一过程称为分区数据解冻。
在ClickHouse中创建MySQL引擎的数据库,创建成功后自动与MySQL服务器交换数据。 CREATE DATABASE mysql_db ENGINE = MySQL('RDS服务MySQL数据库实例IP地址:MySQL数据库实例端口', 'MySQL数据库名', 'MySQL数据库用户名'
Sqoop如何连接MySQL 用户问题 Sqoop如何连接MySQL数据库。 处理步骤 在集群上安装客户端,查看客户端“sqoop/lib”目录下是否有MySQL驱动包。 在客户端目录下加载环境变量。 source bigdata_env 执行Kerberos用户认证。 如果集群
上传MySQL数据库连接驱动 操作场景 Loader作为批量数据导出的组件,可以通过关系型数据库导入、导出数据。在连接关系型数据库前,需提前手动上传驱动。 操作步骤 修改关系型数据库对应的驱动jar包文件权限。 登录Loader服务的主备管理节点,获取关系型数据库对应的驱动jar