检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WHERE id IN (SELECT id FROM tab_b WHERE name = 'xx'); 这里说的大表为条件过滤后的总数据量,千万级以上的数据量可定义为大表。 关联查询必须大表join小表 对于ClickHouse来说,原则上需要把多表join模型提前加工为宽表模型,但
快速创建和使用ClickHouse列式数据库集群 操作场景 本入门提供从零开始创建ClickHouse集群并通过集群客户端进行ClickHouse表的创建与查询操作指导。 ClickHouse是一款开源的面向联机分析处理的列式数据库,独立于Hadoop大数据体系,具有压缩率和极速查询性能。
CarbonData首查优化工具 工具介绍 CarbonData的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入目录“/op
ClickHouse DataBase设计 业务隔离设计-各业务分库设计 在业务规划时,不同业务归属于不同数据库,便于后续对应用户关联的数据库下表、视图等数据库对象权限的分离管理和维护。 业务隔离设计-不要在system库中创建业务表 system数据库是ClickHouse默认
CarbonData首查优化工具 工具介绍 CarbonData 的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入 目录“/
连接器 选择“mysql-fastpath-connector”。 须知: 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版
Hive支持的传统关系型数据库语法说明 概述 Hive支持如下传统关系型数据库语法: Grouping EXCEPT、INTERSECT Grouping 语法简介: 当Group by语句带with rollup/cube选项时,Grouping才有意义。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
Hive支持的传统关系型数据库语法说明 Hive支持如下传统关系型数据库语法: Grouping EXCEPT、INTERSECT Grouping 语法简介: 当group by语句带with rollup/cube选项时,Grouping才有意义。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:102
使用具有Doris管理权限的用户通过MySQL客户端连接到Doris。 执行以下命令创建数据库example_db: create database if not exists example_db; 执行以下命令查看数据库信息: SHOW DATABASES; mysql> SHOW DATABASES;
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
'url' = 'jdbc:mysql://MySQL的服务器IP:MySQL的服务器端口/mysql', 'table-name' = 'customer_t1', 'username' = 'username', --连接MySQL数据库的用户名 'password'
该配置仅用于MySQL专用连接器,当数据列内容中包含默认分隔符时,需要设置自定义分隔符,否则会出现数据错乱。 string 否 \n 输出字段 配置关系型数据库输出字段的相关信息: 字段名:配置输出字段的字段名。 表列名:配置数据库表的列名。 类型:配置字段类型,需要和数据库的字段类型一致。
Spark动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证
命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 创建指定数据库只读权限角色,有如下两种方案: 方案一: 创建指定数据库只读权限角色(以default数据库为例,下同): create role ck_role on cluster default_cluster;
该配置仅用于MySQL专用连接器,当数据列内容中包含默认分隔符时,需要设置自定义分隔符,否则会出现数据错乱。 string 否 \n 输出字段 配置关系型数据库输出字段的相关信息: 字段名:配置输出字段的字段名。 表列名:配置数据库表的列名。 类型:配置字段类型,需要和数据库的字段类型一致。
命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 创建指定数据库只读权限角色,有如下两种方案: 方案一: 创建指定数据库只读权限角色(以default数据库为例,下同): create role ck_role on cluster default_cluster;
方案架构 Hive数据迁移分两部分内容: Hive的元数据信息,存储在MySQL等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService组件,也可以选择RDS(MySQL)作为外置元数据库。 Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。 图1
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container