检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
值。 0.1 hoodie.parquet.compression.codec parquet压缩编解码方式名称,默认值为gzip。可能的选项是[gzip | snappy | uncompressed | lzo] snappy hoodie.logfile.max.size
开发和运行环境的基本配置。版本要求如下: MRS集群的服务端和客户端仅支持自带的Oracle JDK(版本为1.8),不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的,支持Oracle JDK和IBM JDK。 Oracle JDK:支持1.7和1.8版本。 IBM JDK:推荐1.7
使用CDM服务迁移HBase数据至MRS集群 应用场景 本章节适用于将线下IDC机房或者公有云HBase集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 本章节以通过华为云CDM服务 2.9.1.200版本进行数据迁移为例介绍。不同版本操作可能有差
以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络读吞吐率超过阈值,直接联系网络管理员,提升网口速率。
告警解释 系统周期性检测HQL平均提交时间,该时间为调用MapReduce/Spark/Tez接口提交Yarn作业的时间,包含上传依赖的临时Jar包、切分文件等时间。当最近5分钟HQL的平均提交时间超过阈值时上报该告警。 当最近5分钟HQL的平均提交时间小于阈值时,告警恢复。 该章节适用于MRS
管理MRS租户资源 管理MRS租户资源目录 管理MRS租户资源池 清除MRS租户队列配置 重装Yarn服务后手动恢复MRS租户数据 删除MRS租户 Superior调度器模式下管理MRS全局用户策略 Capacity调度器模式下清除租户非关联队列 父主题: 管理MRS集群租户
MRS多租户简介 多租户概述 背景介绍: 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。
以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络写吞吐率超过阈值,直接联系网络管理员,提升网口速率。
访问Hue WebUI界面 操作场景 MRS集群安装Hue组件后,用户可以通过Hue的WebUI,在图形化界面使用Hadoop生态相关组件。 该任务指导用户在MRS集群中打开Hue的WebUI。 Internet Explorer浏览器可能存在兼容性问题,建议更换兼容的浏览器访问Hue
Extension)文件。JCE文件解压后包含“local_policy.jar”和“US_export_policy.jar”。拷贝jar包到如下路径。 Linux:JDK安装目录/jre/lib/security Windows:JDK安装目录\jre\lib\security
WebUI查看应用程序运行情况。 在MapReduce任务运行过程中禁止重启HDFS服务,否则可能会导致任务失败。 运行统计样例程序 确保样例工程依赖的所有jar包已正常获取。 在IntelliJ IDEA开发环境中,打开样例工程中“LocalRunner.java”工程,右键工程,选择“Run LocalRunner
ardinality_max_dictionary_size参数控制,默认8192)。 示例 CREATE TABLE test_codecs ON CLUSTER default_cluster ( `a` String, `a_low_card` LowCardinality(String)
Hudi的component_env。 使用spark-shell --master yarn-client,引入Hudi包生成测试数据: 引入需要的包 import org.apache.hudi.QuickstartUtils._ import scala.collection
执行spark-shell --master yarn-client命令进入spark-shell,然后引入Hudi相关软件包并生成测试数据。 引入需要的包。 import org.apache.hudi.QuickstartUtils._ import scala.collection
TCP临时端口使用率超过阈值 主机上业务无法发起对外建立连接,业务中断。 80.0% 网络读信息 读包错误率 12047 网络读包错误率超过阈值 通信闪断,业务超时。 0.5% 读包丢包率 12045 网络读包丢包率超过阈值 业务性能下降或者个别业务出现超时问题。 0.5% 读吞吐率 12049
WebUI查看应用程序运行情况。 在MapReduce任务运行过程中禁止重启HDFS服务,否则可能会导致任务失败。 运行统计样例程序 确保样例工程依赖的所有jar包已正常获取。 在IntelliJ IDEA开发环境中,打开样例工程中“LocalRunner.java”工程,右键工程,选择“Run LocalRunner
<系统域名> 系统随机生成 ZooKeeper系统启动用户。 zkcli/hadoop.<系统域名> 系统随机生成 登录Zookeeper服务器用户。 oozie 系统随机生成 Oozie系统启动与Kerberos认证用户。 kafka/hadoop.<系统域名> 系统随机生成 用于Kafka安全认证。
件。 -diff <oldSnapshot> <newSnapshot> 将新旧版本之间的差异内容,拷贝到目标位置的旧版本文件中。 -skipcrccheck 是否跳过源文件和目标文件之间的CRC校验。 -strategy {dynamic|uniformsize} 指定拷贝任务
件。 -diff <oldSnapshot> <newSnapshot> 将新旧版本之间的差异内容,拷贝到目标位置的旧版本文件中。 -skipcrccheck 是否跳过源文件和目标文件之间的CRC校验。 -strategy {dynamic|uniformsize} 指定拷贝任务
YARN基本原理 为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。 YARN是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建