检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HetuEngine与其他组件的关系 HetuEngine安装依赖MRS集群,其中直接依赖的组件如表1所示。 表1 HetuEngine依赖的组件 名称 描述 HDFS Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。
HBase全局二级索引样例程序开发思路 HBase支持使用全局二级索引加速条件查询,通过本样例,您可以了解如何管理及使用全局二级索引。 该样例程序仅适用于MRS 3.3.0及之后版本。 场景说明 假定用户开发一个应用程序,其中一个功能需要记录用户信息及地址,记录数据如下表: 表1
HBase全局二级索引样例程序开发思路 HBase支持使用全局二级索引加速条件查询,通过本样例,您可以了解如何管理及使用全局二级索引。 该样例程序仅适用于MRS 3.3.0及之后版本。 场景说明 假定用户开发一个应用程序,其中一个功能需要记录用户信息及地址,记录数据如下表: 表1
HBase操作请求次数指标中的多级图表统计如何理解? 问: HBase操作请求次数指标中的多级图表统计如何理解? 答: 以“RegionServer级别操作请求次数”监控项为例: 登录FusionInsight Manager,选择“集群 > 服务 > HBase > 资源”,在
创建HBase全局二级索引 场景介绍 在用户的表中预先存在大量数据的情况下,可以在某个列上添加索引。 对于未建立索引的用户表,该工具允许用户同时添加和构建索引。 创建HBase全局二级索引 在HBase客户端执行以下命令即可添加或创建索引,执行命令后,指定的索引将被添加到表中: hbase
Guardian Guardian基本原理 Guardian是一个在存算分离场景下为HDFS、Hive、Spark、HBase、Loader、HetuEngine等服务提供访问OBS的临时认证凭据的服务,只有对接OBS的场景下才需要安装Guardian组件。Guardian的典型特性包括:
Impala应用开发简介 Impala简介 Impala直接对存储在HDFS,HBase 或对象存储服务(OBS)中的Hadoop数据提供快速,交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL)
Impala应用开发简介 Impala直接对存储在HDFS、HBase或对象存储服务(OBS)中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动程序和
Impala应用开发简介 Impala直接对存储在HDFS,HBase 或对象存储服务(OBS)中的Hadoop数据提供快速,交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序
身份认证与访问控制 身份认证 MRS支持安全协议Kerberos,使用LDAP作为账户管理系统,并通过Kerberos服务对账户信息进行安全认证。 Kerberos安全认证原理和认证机制具体介绍请参见安全认证原理和认证机制。 访问控制 MRS提供两种访问控制权限模型:基于角色的权
MRS集群服务常用端口列表 在自定义购买MRS集群时,如果集群为LTS版本类型,则可以定制组件端口(默认选择为“开源”)。 “组件端口”参数选择“开源”时,组件端口默认值请参考“开源默认端口”列。 “组件端口”参数选择“定制”时,组件端口默认值请参考“定制默认端口”列。 如果仅有
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
CLEANARCHIVE 本章节内容仅适用于MRS 3.2.1-LTS至MRS 3.3.1-LTS版本。 命令功能 用于对Hudi表的归档文件进行清理,以减少Hudi表的数据存储及读写压力。 命令格式 set hoodie.archive.file.cleaner.policy =
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。
MapReduce与其他组件的关系 MapReduce和HDFS的关系 HDFS是Hadoop分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。 MapReduce是一种编程模型,用于大数据集(大于1TB)的并
Spark DAG设计规范说明 操作场景 合理的设计程序结构,可以优化执行效率。在程序编写过程中要尽量减少shuffle操作,合并窄依赖操作。 操作步骤 以“同行车判断”例子讲解DAG设计的思路。 数据格式:通过收费站时间、车牌号、收费站编号...... 逻辑:以下两种情况下判定这两辆车是同行车:
访问Presto的WebUI 用户可以通过Presto的WebUI,在图形化界面查看Presto的统计信息。Presto的WebUI界面不支持使用IE浏览器访问,建议使用Google浏览器访问。 前提条件 已安装Presto服务的集群。 已安装集群客户端,例如安装目录为“/opt
Spark DAG设计规范说明 操作场景 合理的设计程序结构,可以优化执行效率。在程序编写过程中要尽量减少shuffle操作,合并窄依赖操作。 操作步骤 以“同行车判断”例子讲解DAG设计的思路。 数据格式:通过收费站时间、车牌号、收费站编号...... 逻辑:以下两种情况下判定这两辆车是同行车:
设计DAG 操作场景 合理的设计程序结构,可以优化执行效率。在程序编写过程中要尽量减少shuffle操作,合并窄依赖操作。 操作步骤 以“同行车判断”例子讲解DAG设计的思路。 数据格式:通过收费站时间、车牌号、收费站编号...... 逻辑:以下两种情况下判定这两辆车是同行车 如果两辆车都通过相同序列的收费站,