检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink作业RocksDB状态后端调优 本章节适用于MRS 3.3.0及以后版本。 Flink作业RocksDB介绍 当启用RocksDB作为作业的状态后端时,大量的状态数据会导致RocksDB的读写性能差。可通过如下方法排查算子性能是否受RocksDB影响: 在TaskMan
LOAD DATA 命令功能 LOAD DATA命令以CarbonData特定的数据存储类型加载原始的用户数据,这样,CarbonData可以在查询数据时提供良好的性能。 仅支持加载位于HDFS上的原始数据。 命令格式 LOAD DATA INPATH 'folder_path'
配置FlinkServer作业中使用UDF 本章节适用于MRS 3.1.2及之后的版本。 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。用户可以在Flink WebUI界面中上传并管理UDF jar包,然后在运行作业时调用相关UDF函数。 Flink支持以下3类自定义函数,如表1。
FlinkSQL支持MultiJoin算子 本章节适用于MRS 3.5.0及以后版本。 当使用Flink的Full outer Join算子实现宽表拼接功能时,由于状态会被多次重复存储导致状态后端压力大,计算性能差。使用MultiJoin算子进行宽表拼接计算性能可以提升1倍。 F
HetuEngine用户权限说明 HetuEngine在集群已启用Kerberos认证(安全模式)时提供了如下两种权限管控方式,默认使用Ranger权限模型;在集群未启用Kerberos认证(普通模式)时提供了Ranger权限模型,默认未开启Ranger权限模型: Ranger权
Hive基本原理 Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。
Flink故障排除 使用不同用户执行yarn-session创建Flink集群失败 使用Flink过程中,具有两个相同权限用户testuser和bdpuser。使用用户testuser创建Flink集群正常,但是切换至bdpuser用户创建Fllink集群时,执行yarn-session
建立Hive表分区提升查询效率 操作场景 Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 MRS 3.x之前版本: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。选择“节点管理
创建MRS集群用户 默认情况下,系统只有一个用户“admin”具有Manager最高操作权限。管理员应根据实际业务场景需要,通过Manager创建新用户并指定其操作权限以满足业务使用。 MRS 3.x及之后版本,FusionInsight Manager最大支持50000个用户(包括系统内置用户)。
LOAD DATA 命令功能 LOAD DATA命令以CarbonData特定的数据存储类型加载原始的用户数据,这样,CarbonData可以在查询数据时提供良好的性能。 仅支持加载位于HDFS上的原始数据。 命令格式 LOAD DATA INPATH 'folder_path'
Consumer初始化成功但是无法从Kafka中获取指定Topic消息 问题背景与现象 使用MRS安装集群,主要安装ZooKeeper、Flume、Kafka、Storm、Spark。 使用Storm、Spark、Flume或者自己编写consumer代码来消费Kafka中指定T
Flume常用配置参数 MRS 3.x之前版本需在“properties.properties”文件中配置。 MRS 3.x及之后版本,部分参数可在Manager界面配置。 基本介绍 使用Flume需要配置Source、Channel和Sink,各模块配置参数说明可通过本节内容了解。
快速使用Flume采集节点日志 操作场景 Flume支持将采集的日志信息导入到Kafka。 前提条件 已创建开启Kerberos认证的包含Flume、Kafka等组件的流式集群。可参考购买自定义集群。 已配置网络,使日志生成节点与流集群互通。 使用Flume客户端(MRS 3.x之前版本)
Flume常用配置参数 部分参数可在Manager界面配置。 使用Flume需要配置Source、Channel和Sink,各模块配置参数说明可通过本节内容了解。 MRS 3.x及之后版本部分参数可通过Manager界面配置,选择“集群 > 服务 > Flume > 配置工具”,
查看FlinkServer作业健康状况 本章节适用于MRS 3.3.0及之后的版本。 作业健康状态说明 当集群运行大量Flink作业时,为方便用户对每个作业进行健康状态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况
Spark Streaming性能调优 操作场景 Streaming作为一种mini-batch方式的流式处理框架,它主要的特点是:秒级时延和高吞吐量。因此Streaming调优的目标:在秒级延迟的情景下,提高Streaming的吞吐能力,在单位时间处理尽可能多的数据。 本章节适用于输入数据源为Kafka的使用场景。
Spark Streaming性能调优 操作场景 Streaming作为一种mini-batch方式的流式处理框架,它主要的特点是:秒级时延和高吞吐量。因此Streaming调优的目标:在秒级延迟的情景下,提高Streaming的吞吐能力,在单位时间处理尽可能多的数据。 本章节适用于输入数据源为Kafka的使用场景。
恢复CDL业务数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对CDL进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对CDL进行恢复数据操作。 CDL的元数据存储在DBServi
Hive开源增强特性 Hive开源增强特性:支持HDFS Colocation HDFS Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存储节点上。 Hive支持HD
KrbServer及LdapServer基本原理 KrbServer及LdapServer简介 为了管理集群中数据与资源的访问控制权限,推荐安装安全模式集群。在安全模式下,客户端应用程序在访问集群中的任意资源之前均需要通过身份认证,建立安全会话链接。MRS通过KrbServer为