检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更新客户端(3.x及之后版本) 集群提供了客户端,可以在连接服务端、查看任务结果或管理数据的场景中使用。用户如果在Manager修改了服务配置参数并重启了服务,已安装的客户端需要重新下载并安装,或者使用配置文件更新客户端。 更新客户端配置 方法一: 访问FusionInsight
CarbonData常见配置参数 本章节介绍CarbonData所有配置的详细信息。 carbon.properties相关参数 根据用户实际使用场景在服务端或者客户端配置CarbonData相关参数。 服务端:登录FusionInsight Manager页面,选择“集群 > 服务
Flink Savepoints CLI介绍 概述 Savepoints在持久化存储中保存某个checkpoint,以便用户可以暂停自己的应用进行升级,并将状态设置为savepoint的状态,并继续运行。该机制利用了Flink的checkpoint机制创建流应用的快照,并将快照的
Flink Savepoints CLI介绍 概述 Savepoints在持久化存储中保存某个checkpoint,以便用户可以暂停自己的应用进行升级,并将状态设置为savepoint的状态,并继续运行。该机制利用了Flink的checkpoint机制创建流应用的快照,并将快照的
Flink Savepoints CLI介绍 Savepoints在持久化存储中保存某个checkpoint,以便用户可以暂停自己的应用进行升级,并将状态设置为savepoint的状态,并继续运行。该机制利用了Flink的checkpoint机制创建流应用的快照,并将快照的元数据
Flink Savepoints CLI介绍 概述 Savepoints在持久化存储中保存某个checkpoint,以便用户可以暂停自己的应用进行升级,并将状态设置为savepoint的状态,并继续运行。该机制利用了Flink的checkpoint机制创建流应用的快照,并将快照的
管理MRS租户资源目录 用户根据业务需求,可以在MRS对指定租户使用的HDFS存储目录,进行管理操作。支持用户对租户添加目录、修改目录文件数量配额、修改存储空间配额和删除目录。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“I
EXPORT展示的作业的部分信息会丢失,无法查看。 Export作业只会导出Base表的数据,不会导出Rollup Index的数据。 Export作业会扫描数据,占用I/O资源,可能会影响系统的查询延迟。 语法介绍 导出Doris数据到HDFS 集群已启用Kerberos认证(安全模式) EXPORT
查看MRS集群已修改的组件配置参数 MRS支持一键查看集群内各服务配置参数的变动情况,方便用户快速排查定位问题,提升配置管理效率。 用户可通过MRS 3.x版本集群Manager界面快速查看集群内各服务所有非初始默认值、同一角色实例之间非统一值、集群配置修改的历史记录、集群内当前配置状态为过期的参数。
概述 “算子帮助”章节适用于MRS 3.x及后续版本。 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。
Loader算子说明 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。 不符合转换规则的数据,将成为脏数据跳过。
Hive Join数据优化 操作场景 使用Join语句时,如果数据量大,可能造成命令执行速度和查询速度慢,此时可进行Join优化。 Join优化可分为以下方式: Map Join Sort Merge Bucket Map Join Join顺序优化 Map Join Hive的Map
配置HDFS应用安全认证 场景说明 访问安全集群环境中的服务,需要先通过Kerberos安全认证。所以HDFS应用程序中需要写入安全认证代码,确保HDFS程序能够正常运行。 安全认证有两种方式: 命令行认证: 提交HDFS应用程序运行前,在HDFS客户端执行如下命令进行认证。 kinit
Spark应用开发常用概念 基本概念 RDD 即弹性分布数据集(Resilient Distributed Dataset),是Spark的核心概念。指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从HDFS输入
Hive Join数据优化 操作场景 使用Join语句时,如果数据量大,可能造成命令执行速度和查询速度慢,此时可进行Join优化。 Join优化可分为以下方式: Map Join Sort Merge Bucket Map Join Join顺序优化 Map Join Hive的Map
Spark CBO调优 操作场景 SQL语句转化为具体执行计划是由SQL查询编译器决定的,同一个SQL语句可以转化成多种物理执行计划,如何指导编译器选择效率最高的执行计划,这就是优化器的主要作用。传统数据库(例如Oracle)的优化器有两种:基于规则的优化器(Rule-Based
MapReduce开源增强特性 MapReduce开源增强特性:JobHistoryServer HA特性 JobHistoryServer(JHS)是用于查看MapReduce历史任务信息的服务器,当前开源JHS只支持单实例服务。JobHistoryServer HA能够解决J
配置HDFS应用安全认证 场景说明 访问安全集群环境中的服务,需要先通过Kerberos安全认证。所以HDFS应用程序中需要写入安全认证代码,确保HDFS程序能够正常运行。 安全认证有两种方式: 命令行认证: 提交HDFS应用程序运行前,在HDFS客户端执行如下命令进行认证。 kinit
快速使用Hadoop 本章节提供从零开始使用Hadoop提交wordcount作业的操作指导,wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。 操作步骤 准备wordcount程序。 开源的Hadoop的样例程序包含多个例子,其中包含wordcount。可以从https://dist
validate(UDFParameterValidator validator) throws Exception 在初始化方法“beforeStart”调用前执行,用于检测“UDFParameters”中用户输入的参数是否合法。 否 void beforeStart(UDFParameters parameters