检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Oozie节点间用户互信 操作场景 在使用Oozie节点通过SSH作业执行外部节点的Shell,需要单向免密互信时,可以参考此示例。 前提条件 已经安装Oozie,而且能与外部节点(SSH连接的节点)通信。 操作步骤 在外部节点上确保连接SSH时使用的用户存在,且该用户“~/
TimelineServer目录文件数量到达上限 问题现象 MRS 3.x版本集群,ResourceManager日志显示TimelineServer数据目录数量到达上限打印大量错误日志。 异常日志内容如下: The directory item limit of /tmp/ha
Iceberg常用参数 本章节主要介绍Iceberg重要配置的详细信息。Iceberg表支持使用表属性来配置表的行为,例如读取器的默认拆分大小。 表1 读属性 属性名称 默认值 描述 read.split.target-size 134217728(128MB) 用于设置数据被拆分后的大小。
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似,可参考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSi
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据Hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,推荐跑单节点运行
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
配置Yarn数据访问通道协议 配置场景 服务端配置了web访问为https通道,如果客户端没有配置,默认使用http访问,客户端和服务端的配置不同,就会导致访问结果显示乱码。在客户端和服务端配置相同的“yarn.http.policy”参数,可以防止客户端访问结果显示乱码。 操作步骤
配置Yarn数据访问通道协议 配置场景 服务端配置了web访问为https通道,如果客户端没有配置,默认使用http访问,客户端和服务端的配置不同,就会导致访问结果显示乱码。在客户端和服务端配置相同的“yarn.http.policy”参数,可以防止客户端访问结果显示乱码。 操作步骤
配置Spark Python3样例工程 操作场景 为了运行MRS产品Spark2x组件的Python3接口样例代码,需要完成下面的操作。 操作步骤 客户端机器必须安装有Python3,其版本不低于3.6。 在客户端机器的命令行终端输入python3可查看Python版本号。如下显示Python版本为3
Spark客户端设置回收站version不生效 问题 Spark客户端设置fs.obs.hdfs.trash.version=1不生效,drop table后文件在回收站的存放路径不改变。 通常,默认情况: 当fs.obs.hdfs.trash.version=2时,回收站路径为:/user/
FlinkSQL Lookup算子复用 本章节适用于MRS 3.5.0及以后版本。 使用场景 将Lookup Join的结果写入到多个sink端时,无需为每个sink复制一个Lookup join算子,提高作业的执行效率。 使用方法 配置Flink作业时,可通过在FlinkServer
HetuEngine应用开发流程介绍 开发流程中各阶段的说明如图1所示: 图1 HetuEngine应用程序开发流程 表1 HetuEngine应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解HetuEngine的基本概念,了解场景需求等。 HetuEngine基本概念
访问Spark应用获取的restful接口信息有误 问题 当Spark应用结束后,访问该应用的restful接口获取job信息,发现job信息中“numActiveTasks”的值是负数,如图1所示。 图1 job信息 numActiveTasks是指当前正在运行task的个数。
访问Spark应用获取的restful接口信息有误 问题 当Spark应用结束后,访问该应用的restful接口获取job信息,发现job信息中“numActiveTasks”的值是负数,如图1所示。 图1 job信息 numActiveTasks是指当前正在运行task的个数。
为Topology内部的源数据。 Bolt 在一个Topology中接受数据然后执行处理的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。 Tuple 一次消息传递的基本单元。 Stream 流是一组(无穷)元素的集合,流上的每个元素都属于同一个schema;每个
HDFS用户权限管理 创建HDFS权限角色 配置HDFS用户访问HDFS文件权限 父主题: 使用HDFS
配置MapReduce应用安全认证 场景说明 在kerberos认证集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交MapReduce应用程序时,需要与Yarn、HDFS等之间进行通信。那么提交MapReduce的
FlinkServer REST API样例程序开发思路 场景说明 本样例调用FlinkServer的RestAPI创建租户。 数据规划 准备用户认证文件:登录Manager下载用户凭证,获取“user.keytab”和“krb5.conf”文件。 准备待创建的租户信息,如“te
准备Spark应用Scala开发环境 操作场景 Scala开发环境可以搭建在Windows环境下,而运行环境(即客户端)只能部署在Linux环境下。 操作步骤 对于Scala开发环境,推荐使用IDEA工具,安装要求如下。 JDK使用1.7版本(或1.8版本) IntelliJ IDEA(版本:13