检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
IoTDB自定义函数(UDF)样例程序 功能简介 该样例代码介绍如何实现一个简单的IoTDB自定义函数(UDF)。 详细信息可以参考UDF样例程序与操作章节。 代码样例 以下为代码片段示例: package com.huawei.bigdata.iotdb; import org
以便每个节点都有任务处理。 原则三:每个task的执行时间要合理。 如果一个job,每个map或reduce的执行时间只有几秒钟,就意味着这个job的大部分时间都消耗在task的调度和进程启停阶段,因此需要增加每个task处理的数据大小。建议一个task处理时间为1分钟。 控制单
Connector可以通过Spark读取Doris中存储的数据,也支持通过Spark写入数据到Doris。 Doris与Flink组件的关系 使用Flink Doris Connector可以通过Flink操作(读取、插入、修改、删除)Doris中存储的数据。 Doris与Hive组件的关系
使用BulkLoad工具向HBase迁移数据 HBase的数据都是存储在HDFS中的,数据导入即是加载存放在HDFS中的数据到HBase表中。Apache HBase提供了“Import”和“ImportTsv”工具用于批量导入HBase数据。 “Import”通过“org.apache
以便每个节点都有任务处理。 原则三:每个task的执行时间要合理。 如果一个job,每个map或reduce的执行时间只有几秒钟,就意味着这个job的大部分时间都消耗在task的调度和进程启停阶段,因此需要增加每个task处理的数据大小。建议一个task处理时间为1分钟。 控制单
更好的执行性能。 自动处理数据倾斜 在执行SQL语句时,若存在数据倾斜,可能导致单个executor内存溢出、任务执行缓慢等问题。启动Adaptive Execution特性后,Spark SQL能自动处理数据倾斜场景,对倾斜的分区,启动多个task进行处理,每个task读取若干
好的执行性能。 自动处理数据倾斜。 在执行SQL语句时,如果存在数据倾斜,可能导致单个executor内存溢出、任务执行缓慢等问题。启动Adaptive Execution特性后,Spark SQL能自动处理数据倾斜场景,对倾斜的分区,启动多个task进行处理,每个task读取部
badrecord.action.redirect false 是否在数据加载中开启redirect方式来处理bad records。启用该配置后,源文件中的bad records会被记录在指定存储位置生成的CSV文件中。在Windows操作系统中打开此类CSV文件时,可能会发生CSV注入。
在这种方式下,Loader加载数据的性能受限于分区列的数据分布是否均匀。当分区列的数据偏斜(数据集中在一个或者几个值)时,个别Map需要处理绝大部分数据,进而导致索引失效,造成SQL查询性能急剧下降。 generic-jdbc-connector支持视图的导入导出,而oracl
者文件系统进行处理。查询下推能带来以下好处: 提升整体的查询性能。 减少HetuEngine和数据源之间的网络流量。 减少远端数据源的负载。 HetuEngine对查询下推的具体支持情况,依赖于具体的Connector,以及Connector相关的底层数据源或存储系统。 数据源集
配置Hudi通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在spark-shell中创建Hudi COW表存储到OBS中。 Hudi对接OBS 使用客户端安装用户登录客户端安装节点。 配置环境变量。 source 客户端安装目录/bigdata_env
一般在迁移没有正常执行完成时用来清理ZooKeeper上的中间状态信息。 Kafka集群IP端口号安全模式下是21007,普通模式下是9092。 异常情况处理 在使用Kafka均衡工具进行Partition迁移的过程中,如果出现集群中Broker故障导致均衡工具的执行进度阻塞,这时需要人工介入来恢复,分为以下几种场景:
在这种方式下,Loader加载数据的性能受限于分区列的数据分布是否均匀。当分区列的数据偏斜(数据集中在一个或者几个值)时,个别Map需要处理绝大部分数据,进而导致索引失效,造成SQL查询性能急剧下降。 generic-jdbc-connector支持视图的导入导出,而oracl
些临时文件,但是当Job对应的Yarn任务异常退出时,这些临时文件不会被清理,长时间积攒导致该临时目录下的文件数量越来越多,占用存储空间越来越多。 处理步骤 登录集群客户端。 以root用户登录任意一个Master节点,用户密码为创建集群时用户自定义的密码。 如果集群开启Kerb
一般在迁移没有正常执行完成时用来清理ZooKeeper上的中间状态信息。 Kafka集群IP端口号安全模式下是21007,普通模式下是9092。 异常情况处理 在使用Kafka均衡工具进行Partition迁移的过程中,如果出现集群中Broker故障导致均衡工具的执行进度阻塞,这时需要人工介入来恢复,分为以下几种场景:
配置Flink任务并行度 操作场景 并行度控制任务的数量,影响操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到更优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀
设置Spark Core并行度 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到更优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数
更新数据连接 功能介绍 更新数据连接 调用方法 请参见如何调用API。 URI PUT /v2/{project_id}/data-connectors/{connector_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释:
使用BulkLoad工具向HBase迁移数据 HBase的数据都是存储在HDFS中的,数据导入即是加载存放在HDFS中的数据到HBase表中。Apache HBase提供了“Import”和“ImportTsv”工具用于批量导入HBase数据。 “Import”通过“org.apache
本章节内容仅适用于MRS 3.2.1-LTS至MRS 3.3.1-LTS版本。 命令功能 用于对Hudi表的归档文件进行清理,以减少Hudi表的数据存储及读写压力。 命令格式 set hoodie.archive.file.cleaner.policy = KEEP_ARCHIVED_FILES_BY_SIZE;