检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。 在使用Colocation功能之前,建议用户对Colocation的内部机制有一定了解,包括:
SQL防御前提条件 已安装包含HetuEngine服务的集群客户端,安装目录如“/opt/hadoopclient”。 HetuEngine服务及计算实例运行状态正常。 如集群已启用Kerberos认证,需提前创建HetuEngine的用户并授予相关权限,且需要通过Ranger为该用户配
如果您本地使用Linux操作系统登录Linux弹性云服务器,可以按照下面方式登录。下面步骤以私钥文件以kp-123.pem为例进行介绍。 在您的linux计算机的命令行中执行如下命令,变更权限。 chmod 400 /path/kp-123.pem 上述命令的path为密钥文件的存放路径。 执行如下命令,登录弹性云服务器。
由于窗口使用自定义窗口,这时窗口的状态使用ListState,且同一个key值下,value的值非常多,每次新的value值到来都要使用RocksDB的merge()操作;触发计算时需要将该key值下所有的value值读出。 RocksDB的方式为merge()->merge()....->merge()->read
由于窗口使用自定义窗口,这时窗口的状态使用ListState,且同一个key值下,value的值非常多,每次新的value值到来都要使用RocksDB的merge()操作;触发计算时需要将该key值下所有的value值读出。 RocksDB的方式为merge()->merge()....->merge()->read
集群,请及时清理资源以免产生额外扣费。 准备工作 注册账号并实名认证。 在创建MRS集群之前,请先注册华为账号并开通华为云,进行实名认证。 如果您已开通华为云并进行实名认证,请忽略此步骤。 请您保证账户有足够的资金,以免创建MRS集群失败,具体操作请参见账户充值。 已准备具有创建
SQL执行成功率低于阈值 告警解释 系统每30秒周期性检测执行的HQL成功百分比,HQL成功百分比由一个周期内Hive执行成功的HQL数/Hive执行HQL总数计算得到。该指标可通过“集群 > 待操作的集群名称 > 服务 > Hive > 实例 > 具体的HiveServer实例”查看。执行的HQL成
知能力,用户可以实时掌握MRS集群的各项指标、健康度。 MRS支持将集群中所有部署角色的节点,按管理节点、控制节点和数据节点进行分类,分别计算关键主机监控指标在每类节点上的变化趋势,并在报表中按用户自定义的周期显示分布曲线图。MRS集群指标监控采用周期性监控,历史监控平均周期约为5分钟。
默认生效子网 子网信息,创建集群时所选。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 虚拟私有云 VPC信息,创建集群时所选。 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 OBS权限控制 MRS用户与OBS权限的映射关系。 数据连接
NameNode等的数据保存到外部集群。 集群数据的备份任务运行时长可根据要备份的数据量除以集群与备份设备之间的网络带宽来计算得出,在实际场景中,建议将计算得出的时长乘以1.5作为任务执行时长参考值。 执行数据备份任务会对集群的最大IO性能产生影响,建议备份任务运行时间与集群业务高峰错开。
括专属计算资源+共享存储资源、共享计算资源+专属存储资源、专属计算资源+专属存储资源。 主机安全 MRS支持与公有云安全服务集成,支持漏洞扫描、安全防护、应用防火墙、堡垒机、网页防篡改等。针对操作系统和端口部分,华为云提供如下安全措施: 操作系统内核安全加固 操作系统权限控制 操作系统端口管理
x及之后版本MRS客户端兼容两种CPU架构。 已准备一个弹性云服务器,主机操作系统及版本请参见表1。 表1 参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler 可用:Euler OS 2.2 可用:Euler OS 2.3 可用:Euler OS 2.5 鲲鹏计算(ARM) Euler 可用:Euler
集群,请及时清理资源以免产生额外扣费。 准备工作 注册账号并实名认证。 在创建MRS集群之前,请先注册华为账号并开通华为云,进行实名认证。 如果您已开通华为云并进行实名认证,请忽略此步骤。 请您保证账户有足够的资金,以免创建MRS集群失败,具体操作请参见账户充值。 已准备具有创建
Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。 系统可靠性 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。
使用Hive加载OBS数据并分析企业雇员信息 应用场景 MRS Hadoop分析集群,提供Hive、Spark离线大规模分布式数据存储和计算,进行海量数据分析与查询。 本实践基于华为云MapReduce服务,用于指导您创建MRS集群后,使用Hive对OBS中存储的原始数据进行导入、分析等操作,展示了
的Task来同时计算,以增强系统的处理能力。 图2 Topology Storm有众多适用场景:实时分析、持续计算、分布式ETL等。Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高 保证无数据丢失 容错性好 易于构建和操控 多语言 Storm作为计算平台,在业务层为用
产生告警的主机名 对系统的影响 单个CCWorker进程的内存使用超过最大限制内存后可能会出现进程重启,短暂影响缓存命中率。 可能原因 上层计算服务(Spark/Hive/HetuEngine等)对MemArtsCC组件的并发请求数激增,或者新增了CCWorker的可用磁盘空间,或者业务数据量突增。
Hudi Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的功能。 如需使用Hudi,请确保MRS集群内已安装Spark/Spark2x服务。
会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算。Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。 图2 RDD操作示例 RDD看起来与Scala集合类型没有太大差别,但数据和运行模型大相迥异。
记录实际操作内容,不超过2048字符。 时间 记录操作的时间。对于已删除的集群,界面只显示6个月内的日志信息,若需要查看6个月之前的日志信息,请联系华为云支持人员。 企业项目 操作的集群所属的企业项目。 父主题: 查看MRS集群日志