检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 WAL日志在源端数据库不断积压,可能导致源端PostgreSQL或Opengauss数据库磁盘空间耗尽,最终导致PostgreSQL或Opengauss数据库无法提供服务。 可能原因 CDL任务异常,数据停止处理;或源端数据库更新快,CDL数据处理较慢。
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合
创建Hive表 功能介绍 本小节介绍了如何使用HQL创建内部表、外部表的基本操作。创建表主要有以下三种方式: 自定义表结构,以关键字EXTERNAL区分创建内部表和外部表。 内部表,如果对数据的处理都由Hive完成,则应该使用内部表。在删除内部表时,元数据和数据一起被删除。 外部表
CDL仅支持抓取非系统表下的增量数据,MySQL、PostgreSQL等数据库的内置数据库不支持抓取增量数据。 从Hudi同步数据到DWS或ClickHouse任务中,在Hudi中物理删除的数据目的端不会同步删除。
用户也可以使用MySQL连接软件或者在Doris WebUI界面连接数据库。
ThirdKafka数据库的Topic需要能被MRS集群消费,操作步骤请参考ThirdPartyKafka前置准备。
图1 离线数据加载 操作流程 步骤1:创建RDS for MySQL实例、创建数据表 步骤2:创建MRS Doris集群并配置 步骤3:创建Doris Catalog 步骤1:创建RDS for MySQL实例、创建数据表 创建RDS for MySQL实例,详细操作请参考购买RDS
样例 以Hive导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表“test_1”用于存储Hive数据。
通过Sqoop读取MySQL数据并写parquet文件到OBS时失败 用户问题 通过Sqoop读取MySQL数据,然后直接写到OBS,指定parquet格式时写入报错,不指定parquet时不报错。
在源数据库将字符长度增大。 在源数据库插入数据,数据成功写入Hudi。 在CDL WebUI界面启动任务,源数据库更新数据。
INSERT INTO [database_name.]table [(c1, c2, c3)] SELECT ...
TimelineServer会将数据保存到内存数据库LevelDB中,占用大量内存,安装TimelineServer的节点内存至少需要预留30GB。 该功能适用于MRS 3.2.0-LTS.1及之后版本。
典型场景:从关系型数据库导入数据到HBase 典型场景:从关系型数据库导入数据到Hive 典型场景:从HDFS/OBS导入数据到HBase 典型场景:从关系型数据库导入数据到ClickHouse 典型场景:从HDFS导入数据到ClickHouse 父主题: 使用Loader
样例 以Hive导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表“test_1”用于存储Hive数据。
<ip>:目的集群上数据库的IP地址。 <table_name>:待恢复的表名称。 <passwd>:hive用户的密码。 <export_from>:元数据在目的集群的HDFS地址。
在该配置项中添加用户要重点保护的数据库、表或目录路径。 输入完成后,单击“保存”,保存配置项。 父主题: Hive常见问题
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle
开发思路 在default数据库下创建child表。 把“/home/data”的数据加载进child表中。 查询child表中的数据。 删除child表。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user.keytab、krb5.conf)。
INSERT INTO [database_name.]table [(c1, c2, c3)] SELECT ...
port :Coordinator的端口号,请根据实际情况替换,可使用gs_om -t status --detail查询Coordinator数据路径,在该路径下的“postgresql.conf”文件中查看端口号信息。