检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
说明: 使用临时表是为了使得导出数据到数据库时,不会在目的表中产生脏数据。只有在所有数据成功写入临时表后,才会将数据从临时表迁移到目的表。使用临时表会增加作业的执行时间。 tmp_test 单击“保存并运行”,开始保存并运行作业。
支持创建任务自动或手动备份数据。 前提条件 如果数据要备份至远端HDFS中,需满足以下条件: 准备一个用于备份数据的备集群,认证模式需要与主集群相同。
使用Loader从关系型数据库导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。
元数据定义,如创建数据库、表等 元数据删除,如删除数据库、表等 元数据修改,如增加列、重命名表等 元数据导入/导出 数据维护 向表中加载数据 向表中插入数据 权限管理 创建/删除角色 授予/回收角色 授予/回收权限 Hue审计日志 服务启动 启动Hue 用户操作 用户登录 用户退出
离线数据加载:通过Spark视图读取Hive外表数据并写入Doris 应用场景 通过Spark视图读取Hive外表数据写入到Doris,并按照Unique指定字段自动去重。 方案架构 离线数据可以从数据湖加载,也可以直接加载本地文件。
确认被写入较多数据的目录中数据是否可以进行删除。 删除ZooKeeper中的数据为高危操作,请谨慎处理。 是,执行4。 否,执行5。 登录ZooKeeper客户端,删除被写入较多数据的目录中的无用数据。
表1 HDFS写性能优化配置 参数 描述 默认值 dfs.datanode.drop.cache.behind.reads 表示是否让DataNode将在缓冲区中的数据传递给客户端后自动清除缓冲区中的所有数据。 true:表示丢弃缓存的数据(需要在DataNode中配置)。
查询对应版本元数据 功能介绍 查询对应版本元数据。如果参数里指定集群id,则可查询集群更新过补丁之后的最新元数据。 调用方法 请参见如何调用API。
COW的Clean可以在写数据时自动判断是否执行。 父主题: Hudi数据表管理操作规范
选择“系统管理 > 数据连接管理”,进入数据连接管理页面。 单击“创建数据连接”,在弹出的页面中选择数据连接类型,参考表1填写信息,单击“确定”,完成数据连接创建。创建完成后,可在对应数据连接的“操作”列对数据连接进行编辑、测试、删除等操作。
IoTDB具有类型推断的能力,因此在数据导入前创建元数据不是必须的。但仍然推荐在使用CSV导入工具导入数据前创建元数据,因为这可以避免不必要的类型转换错误。
如果业务没有较多的更新、删除、回收过期数据空间时,可以把该值设置为0,以禁止Major Compaction。
因此使用hive sync时有以下约束: 写入数据Schema只允许增加字段,不允许修改、删除字段。 分区目录只能新增,不会删除。 Overwrite覆写Hudi表不支持同步覆盖Hive表。 Hudi同步Hive表时,不支持使用timestamp类型作为分区列。
Hudi数据管理维护 Hudi Clustering操作说明 Hudi Cleaning操作说明 Hudi Compaction操作说明 Hudi Savepoint操作说明 配置Hudi历史数据清理 Hudi Payload操作说明 父主题: 使用Hudi
hadoop/sbin/start-balancer.sh -threshold 5 -include IP1,IP2,IP3 如果该命令执行失败,在日志中看到的错误信息为“Failed to APPEND_FILE /system/balancer.id”,则需要执行如下命令强行删除
ClickHouse数据表分区过多调优 问题排查步骤 磁盘或其他存储介质问题导致merge过慢或者中止。 登录Manager页面,检查是否存在磁盘容量不足或其他磁盘告警,如果存在,请按照告警指导处理。 如果是磁盘容量不足,也可以联系客户删除部分过期数据,释放空间,快速恢复业务。
使用Loader从HDFS/OBS导出数据到关系型数据库 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到关系型数据库。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
父主题: 数据写入
选择“系统管理 > 数据连接管理”,进入数据连接管理页面。 单击“创建数据连接”,在弹出的页面中选择数据连接类型,参考表1填写信息,单击“确定”,完成数据连接创建。创建完成后,可在对应数据连接的“操作”列对数据连接进行编辑、测试、删除等操作。
如果业务没有较多的更新、删除、回收过期数据空间时,可以把该值设置为0,以禁止Major Compaction。 如果必须要执行Major Compaction,以回收更多的空间,可以适当增加该值来调大Major Compaction的执行周期,减少对资源的频繁占用。单位:毫秒。