检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
my_table_local, rand()); 使用说明 分布式表名称:default.my_table_dis。 本地表名称:default.my_table_local。 通过“AS”关联分布式表和本地表,保证分布式表的字段定义跟本地表一致。 分布式表引擎的参数说明: default_cluster:集群名称。
ClickHouse表字段设计 规则 不允许用字符类型存放时间或日期类数据,尤其是需要对该日期字段进行运算或者比较的时候。 不允许用字符类型存放数值类型的数据,尤其是需要对该数值字段进行运算或者比较的时候。字符串的过滤效率相对于整型或者特定时间类型有下降。 建议 不建议表中存储过多的N
Doris连接运行规范 连接Doris和运行Doris任务时需遵循的规范如下: 推荐使用ELB连接Doris,避免当连接的FE故障时,无法对外提供服务。 当Doris单实例或硬件故障时,新提交的任务能运行成功,但不能确保故障时正在运行的任务能执行成功。因此,需要用户连接Doris
Doris数据导入规范 该章节主要介绍Doris数据导入规范。 Doris数据导入建议 禁止高频执行update、delete或truncate操作,推荐几分钟执行一次,使用delete必须设置分区或主键列条件。 禁止使用INSERT INTO tbl1 VALUES (“1”)
峰期,停止相关表的写入和修改业务后,通过重建表方式实现以上操作: 新建一个表,该表结构和需进行增删改字段的表结构相同。在新建表中增加需要添加的新字段、删除不需要的字段、或修改需改变类型的字段。 选取指定字段数据插入到新创建的表中: INSERT INTO 新创建的表 SELECT
判断使用分区表还是非分区表 根据表的使用场景一般将表分为事实表和维度表: 事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一段时间范围内(年或月或天),下游读取该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通
表运维 TTL变更 父主题: ClickHouse数据库运维
如果批量初始化前表里已经存在数据且没有truncate table,则会导致批量数据写成非常大的log文件,对后续compaction形成很大压力需要更多资源才能完成 Hudi表在Hive元数据中,应该会存在1张内部表(手动创建),2张外部表(写入数据后自动创建)。 2张外部表,表名_ro
limit)导出数据,分页命令为Order by。 如果数据导出提供给第三方使用,建议使用outfile或者export方式 2个以上大于3亿的表JOIN使用Colocation Join。 亿级别大表禁止使用select *查询数据,查询时需明确要查询的字段。 使用SQL Block方式禁止select *操作。
set索引 直接记录了声明字段或表达式的取值(唯一值,无重复),其完整形式为set(max_rows),其中max_rows是一个阈值,表示在一个index_granularity内,索引最多记录的数据行数。如果max_rows=0,则表示无限制。 INDEX b (length(ID)
ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈
(pt_d)。 综合考虑数据分区粒度、每个批次提交的数据量、数据的保存周期等因素,合理控制part数量。 父主题: ClickHouse宽表设计
2)TTL放在代码流程中的最后一步执行,类似DDL表结构变更语句在TTL修改之前执行; 场景2:TTL周期由大变小方案: 方案1:新建一张ttl时间为最新需要修改时间TTL属性的表,表结构相同但名不同的表,把原表的数据导入到新表,交换表名字; 方案2:配置加上延迟物化参数,修改表TTL为最新时间,具体步骤如下:
ClickHouse表引擎适用场景说明 ClickHouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列其他引擎,根据业务场景选择合适的引擎。 表引擎选择建议 自助报表分析、行为数据分析,在不涉及重复数据聚合的情况下,建议使用ReplicatedMergeTree表引擎。 涉
Flink开发规范概述 范围 本规范主要描述基于MRS-Flink组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时必须遵守的原则。 建议:编程时必须加以考虑的原则。
为避免目标表写入脏数据导致的删改,先将数据写入临时表,再从临时表写入目标表。 操作步骤如下: 创建一张与目标表table_dest结构、分区键、排序键、主键、存储策略、引擎都一致的临时表table_source。 先把数据写到临时表,一次只写入一个分区的数据,检查临时表的数据准确无误。
Hudi开发规范概述 范围 本规范主要描述基于MRS-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时强制必须遵守的原则。 建议:编程时必须加以考虑的原则。
库进行连接和使用,业务相关的表创建在自己业务库中,不要将业务的表创建在系统数据库中,避免对系统数据库造成不必要的影响。 命名规范设计规则 所有命名采用26个英文字母和0~9这10个自然数,加上下划线_组成,一般不要出现其他符号。 对象名尽量的短,能表达业务所使用数据库含义即可,以
Doris应用开发规范 Doris建表规范 Doris数据变更规范 Doris命名规范 Doris数据查询规范 Doris数据导入规范 Doris UDF开发规范 Doris连接运行规范
途。建议使用驼峰式命名法,并以UDF结尾,例如:MyFunctionUDF。 Java UDF应该指定返回值的数据类型,并且必须具有返回值,返回值默认或异常时不要设置为NULL。建议使用基本数据类型或Java类作为返回值类型。 父主题: Doris应用开发规范