检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的
Flink客户端使用实践 本节提供使用Flink运行wordcount作业的操作指导。 前提条件 MRS集群中已安装Flink组件。 集群正常运行,已安装集群客户端,例如安装目录为“/opt/hadoopclient”。以下操作的客户端目录只是举例,请根据实际安装目录修改。 使用Flink
配置MRS集群用户的OBS的细粒度访问权限 开启细粒度权限时,用户通过该指导配置访问OBS权限,实现MRS用户对OBS文件系统下的目录权限控制。 该章节内容不适用于MRS 1.9.2版本。 如需对MRS的用户访问OBS的资源进行详细控制,可通过该功能实现。例如,您只允许用户组A访问某一
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的
准备本地应用开发环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,推荐Windows 7以上版本。 运行环境:Windows或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通
Spark应用开发常用概念 基本概念 RDD 即弹性分布数据集(Resilient Distributed Dataset),是Spark的核心概念。指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从HDFS输入创建
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDFS
添加HBase数据源 本章节指导用户在HSConsole界面添加HBase数据源。 添加HBase数据源前提条件 数据源所在集群域名与HetuEngine集群域名不能相同。 数据源所在集群与HetuEngine集群节点网络互通。 在HetuEngine所在集群的所有节点的“/etc
MRS 3.1.2-LTS.2补丁说明 MRS 3.1.2-LTS.2.14补丁基本信息 补丁号 MRS 3.1.2-LTS.2.14 发布时间 2023-10-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager
配置HDFS文件目录标签策略(NodeLabel) 配置场景 用户需要通过数据特征灵活配置HDFS文件数据块的存储节点。通过设置HDFS目录/文件对应一个标签表达式,同时设置每个DataNode对应一个或多个标签,从而给文件的数据块存储指定了特定范围的DataNode。 当使用基于标签的数据块摆放策略
MRS集群数据备份恢复简介 MRS集群数据备份恢复概述 Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。 MRS 3.x及之后版本,备份功能支持将数据备份至本地磁盘(LocalDir)、本端HDFS
编包并运行Spark应用 操作场景 在程序代码完成开发后,您可以将打包好的jar包上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 Spark应用程序只支持在Linux环境下运行,不支持在Windows环境下运行
创建FlinkServer作业对接DWS表 操作场景 FlinkServer支持对接8.1.x及之后版本的GaussDB(DWS)数据库,本章节介绍GaussDB(DWS)作为Source表、Sink表以及维表的DDL定义,以及创建表时使用的WITH参数和代码示例,并指导如何在FlinkServer
在本地Windows中调测HDFS程序 操作场景 在代码完成开发后,您可以在Windows开发环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 HDFS应用程序运行完成后,可直接通过运行结果查看应用程序运行情况,也可以通过HDFS日志获取应用运行情况。 在本地
创建CDL数据同步任务作业 操作场景 CDLService WebUI提供可视化的作业编排页面,用户可快速创建CDL作业,实现实时数据入湖。 前提条件 开启Kerberos认证的集群需已创建具有CDL管理操作权限的用户。 操作步骤 使用具有CDL管理操作权限的用户或admin用户(
快速开发ClickHouse应用 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点: 数据压缩比高 多核并行计算 向量化计算引擎 支持嵌套数据结构
MRS 3.1.0补丁说明 MRS 3.1.0.0.15补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.0.0.15 发布时间 2024-6-7 补丁约束 如果之前集群安装过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0_