正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
流式写入Hudi表 HoodieDeltaStreamer流式写入 Hudi自带HoodieDeltaStreamer工具支持流式写入,也可以使用SparkStreaming以微批的方式写入。HoodieDeltaStreamer提供以下功能: 支持Kafka,DFS多种数据源接入
常见jar包冲突处理方式 问题现象 Spark能对接很多的第三方工具,因此在使用过程中经常会依赖一堆的三方包。而有一些包MRS已经自带,这样就有可能造成代码使用的jar包版本和集群自带的jar包版本不一致,在使用过程中就有可能出现jar包冲突的情况。 常见的jar包冲突报错有: 1、报错类找不到:java
DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS DiskBalancer用于单个DataNode节点上各磁盘之间的数据均衡。
开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载,详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-Zip
开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载,详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件。
example-security”,单击“OK”。 将工程依赖的jar包添加到类路径。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后(配置方式参考配置华为开源镜像仓), 相关依赖jar包将自动下载,不需手动添加。 将工程中的conf目录添加到资源路径。 在Intellij
图2 设置IntelliJ IDEA的编码格式 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,使用IntelliJ IDEA开发工具时,可选择“File > Settings > Build, Execution
开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载,详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-zip
用于开发Hive应用程序的工具,版本要求不低于2.6.6,最高不超过2.7.13。 安装setuptools Python开发环境的基本配置,版本要求5.0以上。 准备开发用户 参考准备MRS应用开发用户进行操作,准备用于应用开发的集群用户并授予相应权限。 Python开发工具的详细安装配置可参见配置Hive
开发环境和运行环境:Linux系统。 安装Python 用于开发Hive应用程序的工具,版本要求不低于2.6.6,最高不超过2.7.13。 安装setuptools Python开发环境的基本配置,版本要求5.0以上。 Python开发工具的详细安装配置可参见配置Hive Python样例工程。 表3
集群内ClickHouseServer节点间数据迁移 ClickHouse数据迁移工具可以将某几个ClickHouseServer实例节点上的一个或多个MergeTree引擎分区表的部分分区迁移至其他ClickHouseServer节点上相同的表中。在扩容场景中,可以使用该工具将原节点上的部分数据迁移至新增节点上,从而达到扩容后的数据均衡。
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间复制功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间复制功能。 对系统的影响
均衡Kafka扩容节点后数据 操作场景 用户可以在Kafka扩容节点后,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载。 本章节内容适用于MRS 3.x之前版本。3.x及之后版本请参考配置Kafka数据均衡工具。 前提条件 MRS集群管理员已明确业务需求,并准备一个Kafka管理员用户(属
example-security”,单击“OK”。 将工程依赖的jar包添加到类路径。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后(配置方式参考配置华为开源镜像仓), 相关依赖jar包将自动下载,不需手动添加。 将工程中的conf目录添加到资源路径。 在Intellij
图2 设置IntelliJ IDEA的编码格式 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,使用IntelliJ IDEA开发工具时,可选择“File > Settings > Build, Execution
开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载,详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件。
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间拷贝功能。 对系统的影响
启用MRS集群间拷贝功能 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用,复制数据的集群双方都需要配置。 管理员可以根据以下指导,在Manager修改参数以启用集群间拷贝功能,启用
集群内ClickHouseServer节点间数据迁移 ClickHouse数据迁移工具可以将某几个ClickHouseServer实例节点上的一个或多个MergeTree引擎分区表的部分分区迁移至其他ClickHouseServer节点上相同的表中。在扩容场景中,可以使用该工具将原节点上的部分数据迁移至新增节点上,从而达到扩容后的数据均衡。
检查HBase全局二级索引数据一致性 场景介绍 可使用全局二级索引工具检查用户数据和索引数据的一致性,如果索引数据与用户数据不一致,该工具可用于重新构建索引数据。 检查全局二级索引数据一致性 在HBase客户端执行以下命令可检查数据一致性,如果不一致,将重新构建索引数据。一致性检