检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将Hudi表数据同步到Hive 通过执行run_hive_sync_tool.sh可以将Hudi表数据同步到Hive中。 例如:需要将HDFS上目录为hdfs://hacluster/tmp/huditest/hudimor1_deltastreamer_partition的Hu
这种情况通常会发生当您试图使用HiveSyncTool.java类向现有hive表添加新列时。数据库通常不允许将列数据类型按照从高到低的顺序修改,或者数据类型可能与表中已存储/将要存储的数据冲突。如果要修复相同的问题,请尝试设置以下属性: 设置hive.metastore.disallow
MySQL数据库IP地址。 10.10.10.10 Port MySQL数据库端口。 3306 User MySQL数据库访问用户。 user Password MySQL数据库访问密码。 user用户密码 Description 描述信息。 xxx 表2 PgSQL数据连接配置参数
FlinkSQL写入JDBC数据支持ignoreDelete 本章节适用于MRS 3.3.0及以后版本。 使用场景 FlinkSQL写入JDBC数据时可以过滤掉DELETE和UPDATE_BEFORE状态的数据。 使用方法 在创建的JDBC Connector Sink流表中添加“filter
列数,全部数据成为脏数据。 配置转换字段类型,与原始数据实际类型不同,全部数据成为脏数据。例如将字符串类型转换为数值类型。 HBase输入 原始数据包含NULL值,不做转换处理。 配置HBase表名错误,全部数据成为脏数据。 “主键”没有配置主键列,全部数据成为脏数据。 配置输入
作导致ZooKeeper上的数据异常,致使ClickHouse启动失败。 解决办法 备份问题节点数据库下所有表数据到其他目录。 备份表数据: MRS 3.0.5及之前版本 cd /srv/BigData/data1/clickhouse/data/数据库名 mkdir -p 备份目录/data1
更作业所在行的“更多 > 停止”,停止CDL作业。 在源数据库侧,将数据类型timestamp修改为timestamptz。 在源数据库插入数据,数据可以正常写入Hudi。 在CDL WebUI界面启动任务,源数据库更新数据。 字符扩长 登录FusionInsight Manager,选择“集群
配置Hudi数据列默认值 该特性允许用户在给表新增列时,设置列的默认值。查询历史数据时新增列返回默认值。 本章节仅适用于MRS 3.3.0及之后版本。 使用约束 新增列在设置默认值前,如果数据已经进行了重写,则查询历史数据不支持返回列的默认值,返回NULL。数据入库、更新、执行C
DBService 数据库连接数使用率 27005 数据库连接数使用率超过阈值 可能导致上层服务无法连接DBService的数据库,影响正常业务。 90% 数据目录磁盘空间使用率 27006 数据目录磁盘空间使用率超过阈值 业务进程不可用。 当数据目录磁盘空间使用率超过90%时,数据库进入只
e和Log文件。 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件,然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟,因而进行不阻塞摄入的异步Compaction很有意义。
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
Hive元数据使用RDS时创建视图表中文乱码 用户问题 MRS 3.1.0版本集群,Hive元数据配置为RDS数据库中存储。创建视图时,使用case when语句中文显示乱码。 例如建表语句如下: 查看视图内容中,中文乱码: 原因分析 该问题是由于元数据表相关字段编码不是UTF 8,导致中文显示异常。
HBase表如何设置和修改数据保留期? 创建表时指定 创建t_task_log表,列族f, TTL设置86400秒过期 create 't_task_log',{NAME => 'f', TTL=>'86400'} 在已有表的基础上指定: alter "t_task_log",NAME=>'data'
DistCP作业导入导出数据常见问题 问:DistCP类型作业导入导出数据时,是否会对比数据的一致性? 答:DistCP类型作业导入导出数据时不会对比数据的一致性,只是对数据进行复制,不会修改数据。 问:DistCP类型作业在导出时,遇到OBS里已经存在的文件是如何处理的? 答:
描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。 表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。 数据库名称由字母、数字、下划线组成。 productName storeCity
”为可选参数。如果没有指定“db_name”,那么将会删除当前数据库下名为“table_name”的表。 示例: DROP TABLE productdb.productSalesTable; 通过上述命令,删除数据库“productdb”下的表“productSalesTable”。
配置Hive读取关系型数据库 操作场景 Hive支持创建与其他关系型数据库关联的外表。该外表可以从关联到的关系型数据库中读取数据,并与Hive的其他表进行Join操作。 目前支持使用Hive读取DB2和Oracle两种关系型数据库的数据。 前提条件 已安装Hive客户端。 操作步骤
OuterJoin 基于有序数据的等值连接。该功能默认对数据调用外部排序进行排序,然后再进行等值连接,因此内存不足时在排序阶段会将数据溢出到磁盘,在连接阶段因数据有序,在内存中只保留当前相同key的数据,使用的内存较小。 配置描述 参数入口: 在应用提交时通过“--conf”设置
OuterJoin 基于有序数据的等值连接。该功能默认对数据调用外部排序进行排序,然后再进行等值连接,因此内存不足时在排序阶段会将数据溢出到磁盘,在连接阶段因数据有序,在内存中只保留当前相同key的数据,使用的内存较小。 配置描述 参数入口: 在应用提交时通过“--conf”设置
配置自定义调度器的WebUI 配置场景 如果用户在ResourceManager中配置了自定义的调度器,可以通过以下配置项为其配置相应的Web展示页面及其他Web应用。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 表1 配置自定义调度器的WebUI 参数