检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
出数据的大小。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 获取关系型数据库对应的驱动jar包保存在Loader服务主备节点的lib路
在一个Topology中接受数据然后执行处理的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。 Tuple 一次消息传递的基本单元。 Stream 流是一组(无穷)元素的集合,流上的每个元素都属于同一个schema;每个元素都和逻辑时间有关;即流包含了元组和时间的双重属性。流上的任何一个元素,都可以用Element<tuple
Manager,选择“系统设置 > 备份管理”。 在任务列表指定任务的“操作”列,单击“更多 > 查询历史”,打开备份任务执行历史记录。 在弹出的窗口中,在指定一次执行成功记录的“备份路径”列,单击“查看”,打开此次任务执行的备份路径信息,查找以下信息: “备份对象”表示备份的数据源。 “备份路径”表示备份文件保存的完整路径。
Iceberg常用参数 本章节主要介绍Iceberg重要配置的详细信息。Iceberg表支持使用表属性来配置表的行为,例如读取器的默认拆分大小。 表1 读属性 属性名称 默认值 描述 read.split.target-size 134217728(128MB) 用于设置数据被拆分后的大小。
议将作业的Map数设置为大于等于3,推荐在作业数据量大的场景下使用。 0 0~1.0 loader.input.field.separator 默认的输入字段分割符,需要配置输入与输出转换步骤才生效,转换步骤的内容可以为空;如果作业的转换步骤中没有配置分割符,则以此处的默认分割符为准。
子分区中的实时输出缓冲区)反馈来分布,并且可以帮助减轻由子分区之间的不平衡数据分布引起的背压。如果节点之间的往返时间较长和/或群集中的机器数量较多,则应增加此值。 8 否 taskmanager.network.memory.fraction 用于网络缓冲区的JVM内存的占比。这
cache_cap_max_availabe_rate 每块盘的最大可用容量比率。 设置范围为0.01~1.0,间隔为0.01。本参数决定使用MemArtsCC磁盘最大容量百分比,默认值是30%,比如3TB的磁盘,MemArtsCC最大可使用的缓存空间为900GB,缓存超过900GB,MemArtsCC动态淘汰缓存。
Manager,选择“运维 > 备份恢复 > 备份管理” 。 在任务列表指定任务的“操作”列,选择“更多 > 查询历史”,打开备份任务执行历史记录。 在弹出的窗口中,在指定一次执行成功记录的“备份路径”列,单击“查看”,打开此次任务执行的备份路径信息,查找以下信息: “备份对象”表示备份的数据源。 “备份路径”表示备份文件保存的完整路径。
Loader)是一个基于Kafka Connect框架的实时数据集成服务。 CDL服务能够从各种OLTP数据库中捕获数据库的Data Change事件,并推送到kafka,再由sink connector推送到大数据生态系统中。 CDL目前支持的数据源有MySQL、PostgreSQL、Hudi、Kafka、
本实践使用华为云CDM服务将Hive集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 Hive数据迁移分两部分内容: Hive的元数据信息,存储在MySQL等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService(华为的Gaussdb数据库),也可以选择RDS(MySQL)作为外置元数据库。
Source监控并传输目录下新增的文件,可实现准实时数据传输。常用配置如表 2 Spooling Source常用配置所示: 图2 SpoolDir Source 表2 SpoolDir Source常用配置 参数 默认值 描述 channels - 与之相连的Channel,可以配置多个。
source .dbservice_profile 执行如下命令,使用DBService数据库的omm用户修改compdbuser用户密码。 gsql -U omm -W DBService数据库的omm用户密码 -d postgres -p 20051 -c "alter user
HBase常用参数配置 该章节操作仅适用于MRS 3.x之前版本集群。 当MRS服务中默认的参数配置不足以满足用户需要时,用户可以自定义修改参数配置来适应自身需求。 登录集群详情页面,选择“组件管理”。 若集群详情页面没有“组件管理”页签,请先完成IAM用户同步(在集群详情页的“概览
use/store/{UUID前3个字符} mkdir -p 备份目录/data1 mv {UUID} 备份目录/data1/ 如果存在多磁盘的场景,需要对data1到dataN的磁盘数据都执行相同的备份操作。 备份元数据信息: cd /srv/BigData/data1/cli
Tez常用配置参数 参数入口 在Manager系统中,选择“集群 > 服务 > Tez > 配置”,选择“全部配置”。在搜索框中输入参数名称。 本章节适用于MRS 3.x及后续版本。 参数说明 表1 参数说明 配置参数 说明 缺省值 property.tez.log.dir Tez日志目录。
Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/join
重置MRS集群组件数据库用户密码 MRS集群中组件连接DBService数据库的用户默认密码为随机密码,建议管理员定期重置组件数据库用户的密码,以提升系统运维安全性。 该章节仅适用于MRS 3.1.2及之后版本。MRS 3.1.2之前版本请参考修改MRS集群组件数据库用户密码章节。 对系统的影响
HDFS常用配置参数 参数入口 请参考修改集群服务配置参数进入HDFS服务配置页面。 参数说明 表1 HDFS参数说明 参数 参数说明 默认值 fs.obs.security.provider 指定获取访问OBS文件系统密钥的实现方式。 参数取值: com.huawei.mrs.
在一个Topology中接受数据然后执行处理的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。 Tuple 一次消息传递的基本单元。 Stream 流是一组(无穷)元素的集合,流上的每个元素都属于同一个schema;每个元素都和逻辑时间有关;即流包含了元组和时间的双重属性。流上的任何一个元素,都可以用Element<tuple
所支持的所有组件。 版本类型 LTS版 待创建的MRS集群版本类型。 集群版本 MRS 3.2.0-LTS.1 待创建的MRS集群版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 组件选择 ClickHouse集群 基于系统预置的集群模板选择要购买的集群组件。