检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置使用分布式缓存执行MapReduce任务 配置场景 本章节操作适用于MRS 3.x及之后版本。 分布式缓存在两种情况下非常有用。 滚动升级 在升级过程中,应用程序必须保持文字内容(jar文件或配置文件)不变。而这些内容并非基于当前版本的Yarn,而是要基于其提交时的版本。一般情况下
使用Flume服务端从Kafka采集日志保存到HDFS 该任务指导用户使用Flume服务端从Kafka的Topic列表(test1)采集日志保存到HDFS上“/flume/test”目录下。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置
Spark基本原理 Spark简介 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用,对数据进行离线处理、流式处理、交互式分析等。 Spark提供了一个快速的计算、写入及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark使用
初始化HDFS 功能简介 在使用HDFS提供的API之前,需要先进行HDFS初始化操作。过程为: 加载HDFS服务配置文件,并进行kerberos安全认证。 认证通过后,实例化Filesystem。 使用HDFS的API。 此处kerberos安全认证需要使用到的keytab文件,
LOAD DATA 命令功能 LOAD DATA命令以CarbonData特定的数据存储类型加载原始的用户数据,这样,CarbonData可以在查询数据时提供良好的性能。 仅支持加载位于HDFS上的原始数据。 命令格式 LOAD DATA INPATH 'folder_path'
默认情况下,采用“System.getProperty("java.io.tmpdir")”方法获取。此参数调优请参考CarbonData性能调优常见配置参数中关于“carbon.use.local.dir”的描述。
从零开始使用Sqoop Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSQL等)间进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、PostgreSQL等)中的数据导进到Hadoop的HDFS中,也可以将
SET/RESET 命令功能 此命令用于动态Add,Update,Display或Reset Hudi参数,而无需重新启动driver。 命令格式 Add或Update参数值: SET parameter_name=parameter_value 此命令用于添加或更新“parameter_name
ALM-45431 ClickHouse 实例不满足拓扑分配 告警解释 ClickHouseServer实例分布不满足拓扑分配要求。 告警属性 告警ID 告警级别 是否自动清除 45431 紧急 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称
配置Controller与Agent间数据传输加密 操作场景 安装集群后Controller和Agent之间需要进行数据通信,在通信的过程中采用了Kerberos认证,出于对集群性能的考虑,通信过程默认不加密,对于一些安全要求较高用户可以采用以下方式进行加密。 该章节仅适用于MRS
Impala客户端使用实践 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它拥有高性能和低延迟的特点。 背景信息 假定用户开发一个应用程序,用于管理企业中的使用
开发和部署HetuEngine UDF 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。 本章节主要介绍开发和应用HetuEngine UDF。 MRS 3.2.1及以后版本,需要基于JDK17.0.4及以上版本开发。本章节以MRS 3.3.0版本为例
建立Hive表分区提升查询效率 操作场景 Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 以root用户登录已安装Hive客户端的节点。 执行以下命令,进入客户端安装目录
场景说明 场景说明 在Spark应用中,通过使用StructuredStreaming调用kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 数据规划 StructuredStreaming样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有
需要继承接口,该接口所在的Jar包路径为“客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar”: [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface], 实现接口中方法
需要继承接口,该接口所在的Jar包路径为“客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar”: [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface], 实现接口中方法
ALM-12007 进程故障 告警解释 进程健康检查模块按5秒周期检测进程状态。当进程健康检查模块连续三次检测到进程连接状态为故障时,产生该告警。 当进程连接正常时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12007 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称
使用HDFS Colocation存储Hive表 操作场景 HDFS Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存储节点上。Hive支持HDFS的Colocation
ALM-19012 HBase系统表目录或文件丢失 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version
配置MRS集群对接Syslog服务器上报告警 如果用户需要在统一的告警平台查看集群的告警和事件,管理员可以在FusionInsight Manager使用Syslog协议将相关数据上报到告警平台。 Syslog协议未做加密,传输数据容易被窃取,存在安全风险。 前提条件 对接服务器对应的弹性云服务器需要和