检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于Timeout waiting for task异常导致Shuffle FetchFailed 问题 使用JDBCServer模式执行100T的TPCDS测试套,出现Timeout waiting for task异常导致Shuffle FetchFailed,Stage一直重试
Storm应用开发简介 简介 Storm是一个分布式的、可靠的、容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习
由于Timeout waiting for task异常导致Shuffle FetchFailed 问题 使用JDBCServer模式执行100T的TPCDS测试套,出现Timeout waiting for task异常导致Shuffle FetchFailed,Stage一直重试
创建HBase全局二级索引 功能简介 通过调用“org.apache.hadoop.hbase.hindex.global.GlobalIndexAdmin”中的方法进行HBase全局二级索引的管理,该类中addIndices用于创建全局二级索引。 全局二级索引的创建需要指定索引列
Manager样例程序开发思路 通过典型场景,可以快速学习和掌握Manage REST API的开发过程,并且对关键的函数有所了解。 场景说明 假定用户需要以非界面方式实现操作FusionInsight Manager系统,要求开发基于HTTP Basic认证的应用程序实现如下功能
创建HBase全局二级索引 功能简介 通过调用“org.apache.hadoop.hbase.hindex.global.GlobalIndexAdmin”中的方法进行HBase全局二级索引的管理,该类中addIndices用于创建全局二级索引。 全局二级索引的创建需要指定索引列
Storm应用开发简介 目标读者 本文档提供给需要Storm二次开发的用户使用。本指南主要适用于具备Java开发经验的开发人员。 简介 Storm是一个分布式的、可靠的、容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理
Oozie应用开发应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合
HetuEngine与其他组件的关系 HetuEngine安装依赖MRS集群,其中直接依赖的组件如表1所示。 表1 HetuEngine依赖的组件 名称 描述 HDFS Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合
HBase冷热分离相关命令介绍 此章节主要介绍HBase冷热分离相关命令的使用,包括Shell命令和Java API命令。 Shell命令在HBase客户端执行,需提前安装HBase客户端,详情请参见安装MRS客户端。 设置HBase表的冷热分界线 Shell 创建冷热分离表。 create
Spark On Hudi性能调优 优化Spark Shuffle参数提升Hudi写入效率 开启spark.shuffle.readHostLocalDisk=true,本地磁盘读取shuffle数据,减少网络传输的开销。 开启spark.io.encryption.enabled
Alluxio Alluxio是一个面向基于云的数据分析和人工智能的数据编排技术。在MRS的大数据生态系统中,Alluxio位于计算和存储之间,为包括Apache Spark、Presto、Mapreduce和Apache Hive的计算框架提供了数据抽象层,使上层的计算应用可以通过统一的客户端
Flink开发规范概述 范围 本规范主要描述基于MRS-Flink组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时必须遵守的原则。 建议:
MapReduce应用开发简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个MapReduce作业(application/job)通常会把输入的数据集切分为若干独立的数据块
MRS 3.2.0-LTS.1版本说明 发布日期 MRS 3.2.0-LTS.1 2023年4月28日 更新内容 服务模块 主要变更点 ClickHouse 升级到22.3.2.2版本。 ClickHouse支持多租户,通过CPU优先级和内存限额分配资源。 Flink 升级到1.15.0
HBase全局二级索引样例程序开发思路 HBase支持使用全局二级索引加速条件查询,通过本样例,您可以了解如何管理及使用全局二级索引。 该样例程序仅适用于MRS 3.3.0及之后版本。 场景说明 假定用户开发一个应用程序,其中一个功能需要记录用户信息及地址,记录数据如下表: 表1
HBase全局二级索引样例程序开发思路 HBase支持使用全局二级索引加速条件查询,通过本样例,您可以了解如何管理及使用全局二级索引。 该样例程序仅适用于MRS 3.3.0及之后版本。 场景说明 假定用户开发一个应用程序,其中一个功能需要记录用户信息及地址,记录数据如下表: 表1
创建HBase全局二级索引 场景介绍 在用户的表中预先存在大量数据的情况下,可以在某个列上添加索引。 对于未建立索引的用户表,该工具允许用户同时添加和构建索引。 创建HBase全局二级索引 在HBase客户端执行以下命令即可添加或创建索引,执行命令后,指定的索引将被添加到表中: hbase
Guardian Guardian基本原理 Guardian是一个在存算分离场景下为HDFS、Hive、Spark、HBase、Loader、HetuEngine等服务提供访问OBS的临时认证凭据的服务,只有对接OBS的场景下才需要安装Guardian组件。Guardian的典型特性包括