检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建集群时配置LakeFormation数据连接 该章节指导用户在创建MRS 3.3.0-LTS集群时配置LakeFormation数据连接,并在创建完成后配置MRS集群相关参数完成与LakeFormation的对接。 创建集群时配置LakeFormation数据连接 进入购买MRS集群页面。
使用BulkLoad工具批量导入HBase数据 操作场景 您可以按照自定义的方式,通过命令批量导入数据到HBase中并创建索引。 您可以在“configuration.xml”文件中定义多个方式来批量导入数据,导入数据时可不创建索引。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成。
使用BulkLoad工具批量导入HBase数据 操作场景 您可以按照自定义的方式,通过命令批量导入数据到HBase中并创建索引。 您可以在“configuration.xml”文件中定义多个方式来批量导入数据。导入数据时可不创建索引。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成。
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
导入导出Hive表/分区数据 操作场景 在大数据应用场景中,往往存在将Hive中的数据表迁移到另一个集群上,使用Hive的导入导出命令可以实现表级别数据迁移,即可使用Export命令将源集群的Hive表导出到目标集群的HDFS中,再在目标集群使用Import命令将导出的数据导入到相应的Hive表中。
JOINS 允许合并多个relation的数据。 HetuEngine支持JOIN类型为:CROSS JOIN、INNER JOIN、OUTER JOIN(LEFT JOIN、RIGHT JOIN、FULL JOIN)、SEMIN JOIN和ANTI JOIN。 CROSS JOIN
调整集群节点 功能介绍 创建集群后,扩容/缩容集群Core节点或者Task节点。MRS集群创建成功后不支持调整Master节点数量,即不支持扩缩容Master节点。该接口不兼容Sahara。处于running状态的集群才允许扩容/缩容,其他状态则不允许扩容/缩容。 集群状态和集群ID可参考查询集群列表接口获取。
快速使用IoTDB IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,支持对接Hadoop与Spark生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。 背景信息 假定某某集团旗下有3个生产线,每个生产线
创建ClickHouse角色 该任务指导MRS集群管理员在Manager创建并设置ClickHouse的角色。ClickHouse角色可设置ClickHouse管理员权限以及ClickHouse表和数据库的读写权限。 前提条件 ClickHouse服务运行正常,Zookeeper服务运行正常。
提交Spark任务到新增Task节点 应用场景 MRS集群可以通过增加Task节点,提升计算能力,集群Task节点主要用于处理数据,不存放持久数据。 本章节指导用户通过租户资源绑定新增的Task节点,并提交Spark任务到新增的Task节点。 方案架构 租户是MRS大数据平台的核
配置通过ELB访问ClickHouse 当前ClickHouse不管是多分片还是多副本都是以集群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多
通过ELB访问ClickHouse 当前ClickHouse不管是多分片还是多副本都是以集群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多节点
添加MRS子租户 根据业务对资源消耗以及隔离的规划与需求,用户可以通过MRS创建子租户,将当前租户的资源进一步分配以满足实际使用场景。 如果在添加租户时,租户资源类型选择“非叶子租户”,则支持添加子租户;如果选择“叶子租户”则不支持添加子租户。 前提条件 已参考添加MRS租户添加“非叶子租户”。
查看MRS集群告警 用户可以在MRS上查看、清除告警。一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。在MRS界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条
扩容集群 功能介绍 对MRS集群进行扩容。 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/clusters/{cluster_id}/expand 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释:
常用参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置参数。 配置Stage失败重试次数 Sp
HDFS开源增强特性 HDFS开源增强特性:文件块同分布(Colocation) 离线数据汇总统计场景中,Join是一个经常用到的计算功能,在MapReduce中的实现方式大体如下: Map任务分别将两个表文件的记录处理成(Join Key,Value),然后按照Join Key
配置MRS集群用户的OBS的细粒度访问权限 开启细粒度权限时,用户通过该指导配置访问OBS权限,实现MRS用户对OBS文件系统下的目录权限控制。 该章节内容不适用于MRS 1.9.2版本。 如需对MRS的用户访问OBS的资源进行详细控制,可通过该功能实现。例如,您只允许用户组A访
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
添加HetuEngine的Ranger访问权限策略 操作场景 Ranger管理员可通过Ranger为HetuEngine用户配置操作数据源的数据库、表、列的管理权限。 前提条件 已安装Ranger服务且服务运行正常。 已创建用户需要配置权限的用户、用户组或角色。 用户已加入hetuuser组。