检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从HDFS导入数据时,确保HDFS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。
表示在RegionServer上启动的RPC侦听器实例数。如果设置过高会导致激烈线程竞争,如果设置过小,请求将会在RegionServer长时间等待,降低处理能力。根据资源情况,适当增加处理线程数。 建议根据CPU的使用情况,可以选择设置为100至300之间的值。 200 hbase.hregion
8版本,Eclipse使用4.3.2及以上版本。 若使用IBM JDK,请确保Eclipse中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保Eclipse中的JDK配置为Oracle JDK。 若使用ODBC进行二次开发,请确保JDK版本为1.8及以上版本。 不同的Ecl
步骤3:创建OBS连接 步骤4:创建迁移作业 方案架构 CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 CDM服务迁移HDFS数据至MRS集群方案如图1所示。
准备本地应用开发环境 选择Windows开发环境下,安装Eclipse,安装JDK。 JDK使用1.8版本,Eclipse使用4.3.2及以上版本。 若使用IBM JDK,请确保Eclipse中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保Eclipse中的JDK配置为Oracle
使用Spark Shell创建Hudi表 本章节仅适用于MRS 3.3.1-LTS及之前版本。 操作场景 本章节主要介绍了如何通过spark-shell使用Hudi功能。 使用Spark数据源,通过代码段展示如何插入和更新Hudi的默认存储类型数据集COW表,以及每次写操作之后如何读取快照和增量数据。
0版本。DBeaver软件下载链接:https://dbeaver.io/files/7.2.0/ 。 适用于LTS版的MRS 3.1.2及以后版本集群。 步骤一:创建MRS集群和计算实例 创建MRS集群。 创建并购买一个包含HetuEngine组件的MRS集群,详情可参考创建MRS集群。
20 设置数据转换 单击“下一步”,进入“转换”界面,设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考Loader算子帮助及表2。 表2 算子输入、输出参数设置 输入类型 输出类型 HBase输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击
警管理、文件管理、作业管理等操作。 MRS集群Manager:Manager是MRS的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 MRS管理控制台与MRS集群Manager页面的区别和联系请参考表1。 表1 MRS管理控制台与Manager区别说明 常用操作 MRS管理控制台
可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。 海量数据存储场景 用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询能力,如车联网场景下,根据汽车编号查询汽车维护信息,存储时,汽车信息会基于汽车编号进行索引,以实现该场景下的秒级响应。通常这类数据量比较庞大,用户可能保存1至3年的数据。
20 设置数据转换 单击“下一步”,进入“转换”界面,设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考Loader算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 HBase输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击
20 设置数据转换 单击“下一步”,进入“转换”界面,设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考Loader算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 Hive输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“
Type”为“ogg”(MRS 3.3.0及之后版本为“ogg-oracle-avro”)显示该参数。 - Host thirdparty-kafka数据库的IP地址。 说明: “Datastore Type”为“oracle”(MRS 3.3.0及之后版本为“drs-oracle-json”)时不支持该参数。
图1 FineBI访问MRS HetuEngine 约束与限制 已安装FineBI 5.1.9版本。 适用于LTS版的MRS 3.1.2及以后版本集群。 步骤一:创建MRS集群和计算实例 创建MRS集群。 创建并购买一个包含HetuEngine组件的MRS集群,详情可参考创建MRS集群。
如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建ClickHouse表的权限,具体请参见ClickHouse用户及权限管理章节,为用户绑定对应角色。如果当前集群未启用Kerberos认证,则无需执行本步骤。 如果是MRS 3.1.0版本集群,则需要先执行:export
S数据失败。 可能原因 告警阈值配置不合理。 HDFS集群配置的磁盘空间不足。 HDFS的业务访问量太大,超过了已有DataNode的负载能力。 处理步骤 查看阈值设置是否合理 在FusiongInsight Manager首页,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从HDFS/OBS导出数据时,确保HDFS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的任务需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。
检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP服务器导入数据时,确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。
目前支持存储bz2、gz压缩格式的数据。 目前MRS集群支持在线创建如下几种类型的作业: MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境,MRS支持提交MapReduce Jar程序。 Spark:基于内存进行计算的分布式计算框架,MRS
GPSSD:通用型SSD 默认取值: 不涉及 data_volume_type 否 String 参数解释: 节点数据磁盘存储类别,目前支持SATA、SAS和SSD等。 约束限制: 不涉及 取值范围: SATA:普通IO SAS:高IO SSD:超高IO GPSSD:通用型SSD 默认取值: