检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DBService简介 DBService是一个高可用性的关系型数据库存储系统,适用于存储小量数据(10GB左右),比如:组件元数据。DBService仅提供给集群内部的组件使用,提供数据存储、查询、删除等功能。 DBService是集群的基础组件,Hive、Hue、Oozie、Load
创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
支持加载用户数据的同时可以完成对索引数据的批量加载。HIndexImportTsv继承了HBase批量加载数据工具ImportTsv的所有功能。此外,若在执行HIndexImportTsv工具之前未建表,直接运行该工具,将会在创建表时创建索引,并在生成用户数据的同时生成索引数据。
支持加载用户数据的同时可以完成对索引数据的批量加载。HIndexImportTsv继承了HBase批量加载数据工具ImportTsv的所有功能。此外,如果在执行HIndexImportTsv工具之前未建表,直接运行该工具,将会在创建表时创建索引,并在生成用户数据的同时生成索引数据。
创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有
Connector支持限流读 本章节适用于MRS 3.3.0及以后版本。 使用场景 使用FlinkSQL的Kafka、upsert-kafka Connector消费数据时需要限流。 使用方法 在创建的Source流表中添加“subtask.scan.records-per-second.li
特性简介 MRS提供标准的云上弹性大数据集群,目前可安装部署包括Hadoop、Spark等大数据组件。当前标准的云上大数据集群不能满足所有用户需求,例如如下几种场景: 通用的操作系统配置不能满足实际数据处理需求,例如需调大系统最大连接数。 需要安装自身业务所需的软件工具或运行环境,例
Manager提供系统中各组件的权限集中管理功能。 Manager引入角色的概念,采用RBAC的方式对系统进行权限管理,集中呈现和管理系统中各组件零散的权限功能,并且将各个组件的权限以权限集合(即角色)的形式组织,形成统一的系统权限概念。这样一方面对普通用户屏蔽了内部的权限管理细节,另一方
同权限的角色将会用“|”合并。查询ACL权限时,将显示合并后的结果,与开启该功能前的显示会有区别。此操作不可逆,请充分考虑实际应用场景,再决定是否做出调整。 如果当前组件使用了Ranger进行权限控制,需基于Ranger配置相关策略进行权限管理,具体操作可参考添加Hive的Ranger访问权限策略。
基于简化使用的角度,针对大数据量的表,可以通过采用Bucket索引来避免状态后端的复杂调优。 如果Bucket索引+分区表的模式无法平衡Bueckt桶过大的问题,还是可以继续采用Flink状态索引,按照规范去优化对应的配置参数即可。 建议 基于Flink的流式写入的表,在数据量超
配置场景 在安全模式的多租户场景下,一个集群可以支持多个用户使用以及支持多个用户任务提交、运行,用户之间不可见,需要有一个权限控制机制,使用户的任务信息不被其他用户获取。 例如,用户A提交的应用正在运行,此时用户B登录系统并查看应用列表,用户B不应该访问到A用户的应用信息。 配置描述
本章节主要介绍ClickHouse创建表的SQL基本语法和使用说明。 基本语法 方法一:在指定的“database_name”数据库中创建一个名为“table_name ”的表。 如果建表语句中没有包含“database_name”,则默认使用客户端登录时选择的数据库作为数据库名称。 CREATE
本章节主要介绍ClickHouse创建表的SQL基本语法和使用说明。 基本语法 方法一:在指定的“database_name”数据库中创建一个名为“table_name ”的表。 如果建表语句中没有包含“database_name”,则默认使用客户端登录时选择的数据库作为数据库名称。 CREATE
“Spark输入”算子,将SparkSQL表的指定列转换成同等数量的输入字段。 输入与输出 输入:SparkSQL表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark数据库 SparkSQL的数据库名称。 String 否 default
priority=<priority> [path1] [path2] 命令行中参数含义为: <jar>:指定需要运行的jar包名称。 [mainClass]:指jar包应用工程中的类的main方法。 <priority>:指定任务的优先级,其取值可为:VERY_HIGH、HIGH、NORMAL、LOW、VERY_LOW。
priority=<priority> [path1] [path2] 命令行中参数含义为: <jar>:指定需要运行的jar包名称。 [mainClass]:指jar包应用工程中的类的main方法。 <priority>:指定任务的优先级,其取值可为:VERY_HIGH、HIGH、NORMAL、LOW、VERY_LOW。
FlinkSQL支持MultiJoin算子 本章节适用于MRS 3.5.0及以后版本。 当使用Flink的Full outer Join算子实现宽表拼接功能时,由于状态会被多次重复存储导致状态后端压力大,计算性能差。使用MultiJoin算子进行宽表拼接计算性能可以提升1倍。 F
、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 M
1-LTS及之后版本。 配置场景 Spark作业失败时可能出现文件残留的情况,可能会长期积累导致磁盘空间告警,因此需要定时清理。 使用约束 本特性需要启动Spark JDBCServer服务,借助JDBCServer服务常驻进程的能力定期清理残留文件。 本特性需要同时配置修改Spark客户端参数、
MRS当前支持包年/包月和按需计费模式,以满足不同场景下的用户需求。 包年/包月:根据集群购买时长,一次性支付集群费用。最短时长为1个月,最长时长为1年。 按需计费:节点按实际使用时长计费,计费周期为一小时。 表1列出了两种计费模式的区别。 表1 计费模式 计费模式 包年/包月 按需计费