检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以实现导入数据的Exactly-Once语义。 同步和异步 Doris目前的导入方式分为两类,同步和异步。如果是外部程序接入Doris的导入功能,需要判断使用导入方式是哪类再确定接入逻辑。 同步 同步导入方式即用户创建导入任务,Doris同步执行导入,执行完成后返回用户导入结果。
(puts.size() != 0) { dstTable.put(puts); } } } 父主题: HBase数据批量导入
步骤二:MRS集群中创建Flink作业制造数据 步骤三:创建DLI Flink作业进行数据同步 步骤四:结果验证 准备工作 已注册华为账号并开通华为云,具体请参见注册华为账号并开通华为云,且在使用CloudTable前检查账号状态,账号不能处于欠费或冻结状态。 已创建虚拟私有云和子网,参见创建虚拟私有云和子网。
使用CDM迁移数据到CloudTable的流程如下: 创建CloudTable集群 使用CDM迁移数据到CloudTable 在CloudTable中查看导入的数据 创建CloudTable集群 登录表格存储服务管理控制台。 在控制台左上角选择区域。 创建一个CloudTable HBase集群。如果您已经有CloudTable
步骤二:MRS集群中创建Flink作业制造数据 步骤三:创建DLI Flink任务进行数据同步 步骤四:结果验证 准备工作 已注册华为账号并开通华为云,具体请参见注册华为账号并开通华为云,且在使用CloudTable前检查账号状态,账号不能处于欠费或冻结状态。 已创建虚拟私有云和子网,参见创建虚拟私有云和子网。
JDBC通过ssl方式连接doris(无需验证证书) 在应用层进行代码重试和负载均衡时,代码重试需要应用自己多个配置doris前端节点地址。比如发现一个连接异常退出,就自动在其他连接上进行重试。 前提条件:集群必须开启HTTPS。 下载证书请在集群详情页面下载。 样例代码: public
SDK概述 本文介绍了CloudTable服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页
JDBC通过非ssl方式连接doris 在应用层进行代码重试和负载均衡时,代码重试需要应用自己多个配置doris前端节点地址。比如发现一个连接异常退出,就自动在其他连接上进行重试。 JDBC Connector 如果使用mysql jdbc connector来连接Doris,可以使用jdbc的自动重试机制:
可以看到,用户10004的已有数据和新导入的数据发生了聚合。同时新增了10005用户的数据。 数据的聚合,在Doris中有如下三个阶段发生: 每一批次数据导入的ETL阶段。该阶段会在每一批次导入的数据内部进行聚合。 底层BE进行数据Compaction的阶段。该阶段,BE会对已导入的不同批次的数据进行进一步的聚合。
建表时,支持定义主键和指标列,查询时返回主键相同的一组数据中的最新数据。相对于明细模型,更新模型简化了数据导入流程,能够更好地支撑实时和频繁更新的场景。 主键模型 主键模型支持分别定义主键和排序键。数据导入至主键模型的表中时,先按照排序键排序后再存储。查询时返回主键相同的一组数据中的最新数据。相
对系统的影响 重启期间集群将无法提供服务。因此,在重启前,请确定集群中没有正在运行的任务,并且所有数据都已经保存。 如果集群正在处理业务数据,如导入数据、查询数据,一旦重启集群,有可能会导致文件损坏或重启失败。因此,建议停止所有集群任务后,再重启集群。 如果重启失败,将有可能会导致集群
对系统的影响 重启期间集群将无法提供服务。因此,在重启前,请确定集群中没有正在运行的任务,并且所有数据都已经保存。 如果集群正在处理业务数据,如导入数据、查询数据,一旦重启集群,有可能会导致文件损坏或重启失败。因此,建议停止所有集群任务后,再重启集群。 如果重启失败,将有可能会导致集群
Distribution的数据分布,那么在数据导入的时候可以设置单分片导入模式(将load_to_single_tablet设置为true),那么在大数据量的导入的时候,一个任务在将数据写入对应的分区时将只写入一个分片,这样将能提高数据导入的并发度和吞吐量,减少数据导入和Compaction导致的写放大问题,保障集群的稳定性。
scanner程序单个BE处理的数据量的最大值,默认为3G。如果单个BE导入的数据量>max_bytes_per_broker scanner会报错,需要调大参数max_bytes per_broker_scanner, 或者调整导入并发数。具体计算逻辑如下: 本次导入并发数=Math.min(源文件大小/最小处理量
自定义创建 模板 当告警内容选择“从模板导入”时,该参数有效。 选择需要导入的模板。如果当前没有告警模板,可以单击“创建自定义告警模板”创建一个符合您需求的告警模板。 导入已有模板 告警策略 当告警内容选择自定义创建时,该参数有效。 HBase支持的监控指标参见HBase集群支持的监控指标
自定义创建 模板 当告警内容选择“从模板导入”时,该参数有效。 选择需要导入的模板。如果当前没有告警模板,可以单击“创建自定义告警模板”创建一个符合您需求的告警模板。 导入已有模板 告警策略 当告警内容选择自定义创建时,该参数有效。 ClickHouse支持的监控指标参见ClickHouse集群支持的监控指标
自定义创建 模板 当告警内容选择“从模板导入”时,该参数有效。 选择需要导入的模板。如果当前没有告警模板,可以单击“创建自定义告警模板”创建一个符合您需求的告警模板。 导入已有模板 告警策略 当告警内容选择自定义创建时,该参数有效。 Doris支持的监控指标请参见Doris集群支持的监控指标
10。 数据导入 【建议】在Flink实时写入数据到Doris的场景下,CheckPoint设置的时间需要考虑每批次数据量,如果每批次数据太小会造成大量小文件,推荐值为60s。 【建议】建议低频攒批导入数据,平均单表导入批次间隔需大于30s,推荐间隔60s,一次导入10000~100000行数据。
HBase用户指南 HBase集群管理 HBase数据批量导入 HBase监控集群 HBase热点自愈 使用全局二级索引
准备开发环境 开发环境简介 准备运行环境 下载样例工程 配置并导入工程 父主题: HBase应用开发指导