检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据模型 Doris的数据模型主要分为3类: Aggregate模型。 Unique模型。 Duplicate。 Aggregate模型 以实际的例子来说明什么是聚合模型,以及如何正确的使用聚合模型。 示例1:导入数据聚合 假设业务有以下模式: 表1 参数说明 ColumnName
使用Import工具导入数据 使用Import工具,可以导入HBase的SequenceFile数据文件到CloudTable的HBase中。Import工具是客户端工具安装包中自带的一个工具。 SequenceFile文件是指使用Export工具从HBase导出的数据文件。 准备一台安
load是一个同步的导入方式,用户通过发送HTTP协议发送请求将本地文件或数据流导入到Doris中。Stream load同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。 Stream load主要适用于导入本地文件,或通过程序导入数据流中的数据。 基本原理
默认的导入最大超时时间4小时,最好是通过切分待导入文件并且分多次导入来解决问题。主要原因是:单次导入超过4小时的话,导入失败后重试的时间成本很高。 可以通过如下公式计算出Doris集群期望最大导入文件数据量: 期望最大导入文件数据量=14400s*10M/s*BE个数。 比如:集群的BE个数为10个。
数据导入导出 本章节主要介绍使用ClickHouse客户端导入导出文件数据的基本语法和使用说明。 CSV格式数据导入导出 CSV格式数据导入。 非安全集群 cat csv_ssl | ./clickhouse client --host 192.168.x.x --port port
数据导入 总览 批量数据导入 父主题: Doris应用开发指导
使用CopyTable工具导入数据 CopyTable是HBase提供的一个实用工具,可以将部分或全部表复制到同一个集群或另一个集群中。目标表必须预先存在。在CloudTable客户端工具中已经包含了CopyTable工具,用户部署客户端工具后,即可使用CopyTable工具导入数据到CloudTable集群。
批量数据导入 Broker Load Stream Load 父主题: 数据导入
Doris数据表和数据模型 数据表 数据模型 最佳实践 父主题: 建表
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 数据模型选择 Doris数据模型上目前分为三类:AGGREGATE KEY,UNIQUE KEY,DUPLICATE KEY。三种模型中数据都是按KEY进行排序。 Aggregate模型。 Agg
在应用开发环境中,导入样例工程到Eclipse开发环境。 选择“File > Import > General > Existing Projects into Workspace > Next > Browse”。 显示“浏览文件夹”对话框。如图1所示。 选择样例工程文件夹,单击“Finish”。
HBase数据批量导入 使用CDM迁移数据到CloudTable 使用Import工具导入数据 使用CopyTable工具导入数据 数据表复制样例代码 父主题: HBase用户指南
直接根据创建导入任务命令返回的结果同步判断导入是否成功。 异步 异步导入方式即用户创建导入任务后,Doris直接返回创建成功。创建成功不代表数据已经导入。导入任务会被异步执行,用户在创建成功后,需要通过轮询的方式发送命令查看导入作业的状态。如果创建失败,则可以根据失败信息,判断是否需要再次创建。
Import”对话框中,选择“clickhouse-examples”文件夹中的“pom.xml”文件,单击“OK”。 确认后续配置,单击“Next”,如无特殊需求,使用默认值即可。 选择推荐的JDK版本,单击“Finish”完成导入。 工程导入完成后,修改样例工程的“conf”目录下的“clickhouse-example
从OLAP场景看,Column可以分为两大类:Key和Value。Key表示维度列,Value表示指标列。 父主题: Doris数据表和数据模型
连接参数配置 单击“保存”。 在CDM集群中,在“表/文件迁移”页面,新建一个作业。 有关新建“表/文件迁移”作业的详细操作,请参见《云数据迁移用户指南》的新建表/文件迁移作业章节。 在新建“表/文件迁移”类型的作业时,如果待迁移的源端的表/文件在目的端CloudTable集群中不存在相应
(puts.size() != 0) { dstTable.put(puts); } } } 父主题: HBase数据批量导入
如果集群正在处理业务数据,如导入数据、查询数据,一旦重启集群,有可能会导致文件损坏或重启失败。因此,建议停止所有集群任务后,再重启集群。 如果重启失败,将有可能会导致集群不可用,建议联系技术支持人员进行处理或稍后重试。 操作步骤 登录表格存储服务管理控制台。 单击控制台左上角的,选择区域。 在左侧导航树,单击集群管理。
如果集群正在处理业务数据,如导入数据、查询数据,一旦重启集群,有可能会导致文件损坏或重启失败。因此,建议停止所有集群任务后,再重启集群。 如果重启失败,将有可能会导致集群不可用,建议联系技术支持人员进行处理或稍后重试。 操作步骤 登录表格存储服务管理控制台。 单击控制台左上角的,选择区域。 在左侧导航树,单击集群管理。
如果不使用Partition,则描述的是对整个表的数据的划分规则。 分桶列可以是多列,Aggregate和Unique模型必须为Key列,Duplicate模型可以是Key列和Value列。分桶列可以和Partition列相同或不同。 分桶列的选择,是在查询吞吐和查询并发之间的一种权衡: