检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle
在该配置项中添加用户要重点保护的数据库、表或目录路径。 输入完成后,单击“保存”,保存配置项。 父主题: Hive常见问题
为什么Bad Records导致数据加载性能降低? 问题 为什么Bad Records会导致数据加载性能降低?
开发思路 在default数据库下创建child表。 把“/home/data”的数据加载进child表中。 查询child表中的数据。 删除child表。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。
Spark常用配置参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置Spark参数。 配置Stage
show frozen tables; 查询指定数据库下的所有冻结表: show frozen tables in 数据库名称; 查询冻结表的冻结分区 查询冷冻分区: show frozen partitions 表名; 默认元数据库冻结分区类型只支持int、string、varchar
MRS安全增强 MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全
db_test 数据库类型 数据库类型,分为MOT和其他可用JDBC连接的数据库。 MOT MOT导入方式 “数据库类型”选择“MOT”时存在,根据业务需要选择相应导入方式。 说明: 数据导入数据库的方式,有全量导入,增量导入,普通导入三种。
如果集群已启用Kerberos认证(安全模式),需先执行以下命令再连接Doris数据库: export LIBMYSQL_ENABLE_CLEARTEXT_PLUGIN=1 mysql -u数据库登录用户 -p数据库登录用户密码 -P数据库连接端口 -hDoris FE实例IP地址
基本语法 SELECT [DISTINCT] expr_list [FROM [database_name.]table | (subquery) | table_function] [FINAL] [SAMPLE sample_coeff] [ARRAY JOIN ...]
使用distcp命令跨集群复制HDFS数据 操作场景 distcp是一种在集群间或集群内部拷贝大量数据的工具。它利用MapReduce任务实现大量数据的分布式拷贝。 前提条件 已安装Yarn客户端或者包括Yarn的客户端。例如安装目录为“/opt/client”。 各组件业务用户由
两个条件只要有一个满足,就会触发一次sink,即到达触发条件时再flush到数据库表中。
数据库通常不允许将列数据类型按照从高到低的顺序修改,或者数据类型可能与表中已存储/将要存储的数据冲突。如果要修复相同的问题,请尝试设置以下属性: 设置hive.metastore.disallow.in compatible.col.type.changes为false。
clickhouse client --host ClickHouse的实例IP --user 登录名 --password --port ClickHouse的端口号 --database 数据库名 输入用户密码 在ClickHouse实例节点上创建和DWS表结构相同的表。
HBase开源增强特性 HBase开源增强特性:HIndex HBase是一个Key-Value类型的分布式存储数据库。
配置从Postgresql抓取数据到Hudi任务的心跳表 在需要同步的Postgresql数据库下执行以下命令创建一张心跳表,心跳表归属cdc_cdl Schema,表名为cdc_heartbeat,主键为cdl_job_id: DROP TABLE IF EXISTS cdc_cdl.cdc_heartbeat
Hive与DBService的关系 Hive的MetaStore(元数据服务)处理Hive的数据库、表、分区等的结构和属性信息(即Hive的元数据),这些信息需要存放在一个关系型数据库中,由MetaStore管理和处理。
同时通过Flink CDC对接上游数据库写ClickHouse的场景也受限,上游数据库如果进行了物理操作,那么ClickHouse中数据无法进行同步删除。 父主题: FlinkSQL Connector开发规范
Presto允许查询的数据源包括Hadoop分布式文件系统(HDFS),Hive,HBase,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源,执行跨数据源的数据分析。
使用HetuEngine跨源跨域访问数据源 HetuEngine跨源功能简介 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。