检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS 3.2.1及以后版本,需要基于JDK17.0.4及以上版本开发。本章节以MRS 3.3.0版本为例。 开发Hive UDF项目 本样例实现一个Hive UDF,说明见下表。 表1 Hive UDF说明 名称 说明 AutoAddOne 对输入的数字加1后返回 一个普通Hive
HyperLogLog函数 HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个
2,如何使用cluster1中的Spark2x访问cluster2中的HDFS、Hive、HBase和Kafka组件。 回答 可以有条件的实现两个集群间组件互相访问,但是存在以下限制: 仅允许访问一个Hive MetaStore,不支持同时访问cluster1的Hive MetaStore和cluster2的Hive
标准SQL的更新、删除操作是同步的,即客户端要等服务端返回执行结果(通常是int值);而ClickHouse的update、delete是通过异步方式实现的,当执行update语句时,服务端立即返回执行成功还是失败结果,但是实际上此时数据还没有修改完成,而是在后台排队等着进行真正的修改,可能
更换CA证书 操作场景 MRS CA证书用于组件客户端与服务端在通信过程中加密数据,实现安全通信。该任务指导集群用户通过FusionInsight Manager完成CA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。
topology.execute(); 增加如上的安全插件配置后,可以避免HDFSBolt和HBaseBolt在初始化过程中的无谓登录,因为Flink已经实现准备好了安全上下文,无需再登录。 迁移Storm对接其他安全组件的业务 如果Storm的业务使用的storm-kakfa-client等插
table2表有记录key=1,cf:cid=1000,表示用户1的历史消息记录金额为1000元。 基于某些业务要求,要求开发Spark应用程序实现如下功能: 根据用户名累计用户的历史消费金额,即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。 上例所示
table2表有记录key=1,cf:cid=1000,表示用户1的历史消息记录金额为1000元。 基于某些业务要求,要求开发Spark应用程序实现如下功能: 根据用户名累计用户的历史消费金额,即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。 上例所示
---------------- 回答 该应用程序中使用了DStream中的print算子来显示结果,该算子会调用RDD中的take算子来实现底层的计算。 Take算子会以Partition为单位多次触发计算。 在该问题中,由于Shuffle操作,导致take算子默认有两个Par
想要访问OBS,可以通过Guardian组件获取AK、SK实现。Guardian组件是MRS的自研组件,可以帮助集群外的客户端访问OBS的临时AK、SK。 仅MRS 3.1.5版本集群支持该功能。 通过Guardian实现集群外客户端访问OBS 确认集群已经安装Guardian组件。
---------------- 解答 该应用程序中使用了DStream中的print算子来显示结果,该算子会调用RDD中的take算子来实现底层的计算。 Take算子会以Partition为单位多次触发计算。 在该问题中,由于Shuffle操作,导致take算子默认有两个Par
和cluster2,如何使用cluster1中的Spark2x访问cluster2中的HDFS、Hive、HBase和Kafka组件。 回答 可以有条件的实现两个集群间组件互相访问,但是存在以下限制: 仅允许访问一个Hive MetaStore,不支持同时访问cluster1的Hive MetaStore和cluster2的Hive
配置用户租约隔离访问指定节点的HiveServer 操作场景 此功能适用于Hive。 开启此功能可以限定指定用户访问指定节点上的HiveServer服务,实现对用户访问HiveServer服务的资源隔离。 本章节适用于MRS 3.x及后续版本。 操作步骤 以对用户hiveuser设置租约隔离为例
场景说明 场景说明 用户可以使用Spark调用HBase的接口来操作HBase表的功能。在Spark应用中,用户可以自由使用HBase的接口来实现创建表、读取表、往表中插入数据等操作。 数据规划 首先需要把数据文件放置在HDFS系统里。 本地新建文本文件,将以下内容复制保存到input_data1
table2表有记录key=1,cf:cid=1000,表示用户1的历史消息记录金额为1000元。 基于某些业务要求,要求开发Spark应用程序实现如下功能: 根据用户名累计用户的历史消费金额,即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。 上例所示
(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”及其主要思想,均取自于函数式编程语言及矢量编程语言。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对共享相同的键组。
程序在访问集群中的任意资源之前均需要通过身份认证,建立安全会话链接。 MRS通过KrbServer为所有组件提供Kerberos认证功能,实现了可靠的认证机制。 LdapServer支持轻量目录访问协议(Lightweight Directory Access Protocol,
界面提示“授权成功。”,单击“完成”,委托成功创建。 步骤二:为MRS集群配置委托 配置存算分离支持在新建集群中配置委托实现,也可以通过为已有集群绑定委托实现。本示例以为已有集群配置委托为例介绍。 登录MRS控制台,在导航栏选择“现有集群”。 单击集群名称,进入集群详情页面。 在
手动备份Doris数据 Doris支持将当前数据以文件的形式,通过Broker备份到远端存储系统中,可实现将Doris数据定期进行快照备份及数据迁移操作。 该章节操作仅适用于MRS 3.3.1之前版本。 备份恢复相关的操作目前只允许拥有ADMIN权限的用户执行。 一个DataBa
Hudi Payload操作说明 本章节仅适用于MRS 3.3.0及之后版本。 Payload介绍 Payload是Hudi实现数据增量更新和删除的关键,它可以帮助Hudi在数据湖中高效的管理数据变更。Hudi Payload的格式是基于Apache Avro的,它使用了Avro