检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
xml”中(例如“客户端安装路径/HDFS/hadoop/etc/hadoop/”)配置如下参数。 表1 参数描述 参数 描述 默认值 io.compression.codecs 为了使LZC压缩格式生效,在现有的压缩格式列表中增加如下值: “com.huawei.hadoop.datasight.io.compress
der的输出字段名和SparkSQL表中的字段名保持一致。 Hive 1.2.0版本之后,Hive使用字段名称替代字段序号对ORC文件进行解析,因此,Loader的输出字段名和SparkSQL表中的字段名需要保持一致。 enum 是 CSV Spark文件压缩格式 在下拉菜单中选
Driver Program 是Spark应用程序的主进程,运行Application的main()函数并创建SparkContext。负责应用程序的解析、生成Stage并调度Task到Executor上。通常SparkContext代表Driver Program。 Executor 在Work
请登录密钥管理控制台进行操作。 数据盘密钥ID 用于加密数据盘的密钥ID。 组件版本 集群安装各组件的版本信息。 委托 通过绑定委托,ECS或BMS云服务将有权限来管理您的部分资源。 父主题: 查看MRS集群日志
MS Administrator”权限,且需要在相应组件进行如下配置。 如果集群同时开启“OBS权限控制”功能,此时会使用ECS配置的默认委托“MRS_ECS_DEFAULT_AGENCY”或者用户设置的自定义委托的AK/SK访问OBS服务,同时OBS服务会使用接收到的AK/SK
使用Hue提交Coordinator定时调度作业 操作场景 该任务指导用户通过Hue界面提交定时调度类型的作业。 前提条件 提交Coordinator任务之前需要提前配置好相关的workflow作业。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 在界面左
击。 所以在普通模式下,建议单用户场景下使用,必须通过严格限定网络访问权限来保障集群的安全。 尽量将业务应用程序部署在同VPC和子网下的ECS中,避免通过外网访问MRS集群。 配置严格限制访问范围的安全组规则,禁止对MRS集群的入方向端口配置允许Any或0.0.0.0的访问规则。
使用Hue提交Coordinator定时调度作业 操作场景 该任务指导用户通过Hue界面提交定时调度类型的作业。 前提条件 提交Coordinator任务之前需要提前配置好相关的workflow作业。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 在界面左
的数据提取。该选项的目的只是让用户知道哪些记录被视为Bad Records。 MAXCOLUMNS:该可选参数指定了在一行中,由CSV解析器解析的最大列数。 OPTIONS('MAXCOLUMNS'='400') 表3 MAXCOLUMNS 可选参数名称 默认值 最大值 MAXCOLUMNS
使用CDM服务迁移HBase数据至MRS集群 应用场景 本章节适用于将线下IDC机房或者公有云HBase集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 本章节以通过华为云CDM服务 2.9.1.200版本进行数据迁移为例介绍。不同版本操作可能有差
管理MRS租户资源 管理MRS租户资源目录 管理MRS租户资源池 清除MRS租户队列配置 重装Yarn服务后手动恢复MRS租户数据 删除MRS租户 Superior调度器模式下管理MRS全局用户策略 Capacity调度器模式下清除租户非关联队列 父主题: 管理MRS集群租户
MRS多租户简介 多租户概述 背景介绍: 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。
HBase应用开发常用概念 过滤器 过滤器提供了非常强大的特性来帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。 协处理器 允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。 Client
ardinality_max_dictionary_size参数控制,默认8192)。 示例 CREATE TABLE test_codecs ON CLUSTER default_cluster ( `a` String, `a_low_card` LowCardinality(String)
压。 图2 无反压状态 图3 反压状态 使用Hive SQL时如果Flink语法不兼容则可切换Hive方言 当前Flink支持的SQL语法解析引擎有default和Hive两种,第一种为Flink原生SQL语言,第二种是Hive SQL语言。因为部分Hive语法的DDL和DML无法用Flink
的数据提取。该选项的目的只是让用户知道哪些记录被视为Bad Records。 MAXCOLUMNS:该可选参数指定了在一行中,由CSV解析器解析的最大列数。 OPTIONS('MAXCOLUMNS'='400') 表3 MAXCOLUMNS 可选参数名称 默认值 最大值 MAXCOLUMNS
HBase应用开发常用概念 过滤器 过滤器提供了非常强大的特性来帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。 协处理器 允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。 keytab文件
HBase应用开发常用概念 过滤器 过滤器用于帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。 协处理器 允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。 Client 客户端直接面向用户,可通过Java
多租户资源管理 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。
YARN基本原理 为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。 YARN是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建