检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse支持原子性写入能力,支持事务能力。实现事务的原子性,在事务的某个操作失败后,支持回滚到事务执行之前的状态。 本章节主要介绍如何开启ClickHouse事务。 使用本地表场景进行数据写入性能更优,故推荐本地表的数据增、删、改、查场景的多副本分布式事务支持。 对于
使用限制:当前统计信息收集不支持针对分区表的分区级别的统计信息。 在Spark客户端的“spark-defaults.conf”配置文件中进行表1设置。 表1 参数介绍 参数 描述 默认值 spark.sql.cbo.enabled CBO总开关。 true表示打开, false表示关闭。 要使用该功能,需确保相关表和列的统计信息已经生成。
使用限制:当前统计信息收集不支持针对分区表的分区级别的统计信息。 在Spark客户端的“spark-defaults.conf”配置文件中进行表1设置。 表1 参数介绍 参数 描述 默认值 spark.sql.cbo.enabled CBO总开关。 true表示打开, false表示关闭。 要使用该功能,需确保相关表和列的统计信息已经生成。
Flink Kafka样例程序(Scala) 功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 下面列出producer和consumer主要逻辑代码作为演示。 完整代码参见com.huawei.bigdata.flink
-site.xml”文件,且根据实际集群情况配置所需要的参数。JDBCServer相关参数详情,请参见Spark JDBCServer接口介绍。 开发思路 在default数据库下创建child表。 把“/home/data”的数据加载进child表中。 查询child表中的数据。
Hudi Payload操作说明 本章节仅适用于MRS 3.3.0及之后版本。 Payload介绍 Payload是Hudi实现数据增量更新和删除的关键,它可以帮助Hudi在数据湖中高效的管理数据变更。Hudi Payload的格式是基于Apache Avro的,它使用了Avro
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻集群元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,冻结的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表中,这一过程称为分区数据解冻。
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,移动的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表,这一过程称为分区数据解冻。
Flink Kafka样例程序(Scala) 功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.j
包和业务表在同一个OBS桶下偶现OBS 403认证过期问题,开启方法(若之前有设置过,则跳过):在Master节点通过ps -ef | grep executor命令确定executor进程ID,并添加参数executor.spark.launcher.obs.user-agency
Flink Kafka样例程序(Scala) 功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.j
添加HBase二级索引 功能介绍 您可以使用org.apache.hadoop.hbase.hindex.client.HIndexAdmin中提供的方法来管理HIndexes。 该类提供了将索引添加到现有表的方法: 根据用户是否希望在添加索引操作期间构建索引数据,有两种不同的方法可将索引添加到表中:
输入数据文件。 指定输入的文件或者输入的目录,输入的目录中如果存在当前格式则解析,如果不存在则跳过。可以指定本地文件或者目录,也可以指定HDFS/OBS文件或者目录。 input-directory 输入数据文件所在的目录,子文件多个的情况下使用。 例如,执行以下命令排查orc文件“hdf
例如Oracle数据库中的“date”类型,系统会自动识别为“timestamp”类型,若不手动处理会导致后续Hive表在查询数据时报错。 配置输出算子,输出到HDFS/OBS,结果如下: 父主题: 输入算子
为了解决上述场景下对搬迁能力的要求,MRS提供了ClickHouse集群数据一键式工具搬迁能力,将源集群中的ClickHouse数据库、表对象DDL、业务数据迁移到新建集群中。 迁移方案原理介绍 Replicated*MergeTree引擎的复制表迁移: ClickHouse利用ZooKeeper将同一分
可以参考备份数据将数据备份到第三方服务器,例如备份到:远端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服务器(SFTP)、OBS。 创建备份任务成功后,等待2分钟,检查告警是否消除。 是,处理完毕。 否,执行6。 收集故障信息。 在FusionInsight Manager界面,选择“运维
例如Oracle数据库中的“date”类型,系统会自动识别为“timestamp”类型,如果不手动处理会导致后续Hive表在查询数据时报错。 配置输出算子,输出到HDFS/OBS,结果如下: 父主题: Loader输入类算子
-site.xml”文件,且根据实际集群情况配置所需要的参数。JDBCServer相关参数详情,请参见Spark JDBCServer接口介绍。 开发思路 在default数据库下创建child表。 把“/home/data”的数据加载进child表中。 查询child表中的数据。
Flink DataStream样例程序(Scala) 功能介绍 实时统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印出来。 DataStream FlinkStreamScalaExample代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata
在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,在搜索框中输入参数名称。 表1 参数介绍 参数 描述 默认值 spark.yarn.cluster.driver.extraClassPath YARN-Cluster模式下,D