检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
地组合计算存储资源,包括专属计算资源+共享存储资源、共享计算资源+专属存储资源、专属计算资源+专属存储资源。 主机安全 MRS支持与公有云安全服务集成,支持漏洞扫描、安全防护、应用防火墙、堡垒机、网页防篡改等。针对操作系统和端口部分,华为云提供如下安全措施: 操作系统内核安全加固
Hadoop shell命令 Hadoop基本shell命令,包括提交MapReduce作业,kill MapReduce作业,进行HDFS文件系统各项操作等。 MapReduce输入输出(InputFormat,OutputFormat) MapReduce框架根据用户指定的Inp
形化的方式使用Oozie。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用HDFS客户端对HDFS文件进行操作,使用Hive客户端对Hive表进行操作。
HCatalog HCatalog是建立在Hive元数据之上的一个表信息管理层,吸收了Hive的DDL命令。为MapReduce提供读写接口,提供Hive命令行接口来进行数据定义和元数据查询。基于Hive的HCatalog功能,Hive、MapReduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。
Flink基于Yarn的集群部署 Flink Yarn Client首先会检验是否有足够的资源来启动Yarn集群,如果资源足够,会将Jar包、配置文件等上传到HDFS。 Flink Yarn Client首先与Yarn Resource Manager进行通信,申请启动Application
为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间表示所有副本文件在HDFS中占用的磁盘空间大小总和。例如“存储空间配额”设置为“500MB”,则实际只能保存约500/2=250MB大小的文件。 存储路径 - 配置租户在HDFS中的存储目录,用于存放租户资源数据。
大数据集群为Yarn分配的资源是静态服务资源,可以由Yarn动态分配给任务队列计算使用。 静态服务资源 静态服务资源是集群分配给各个服务的计算资源,每个服务的计算资源总量固定,不与其他服务共享,是静态的。这些服务包括Flume、HBase、HDFS和Yarn。 动态资源 Yarn是大数据集群中的
//失效时间 导入证书文件。 导入新的CA证书文件。 请联系运维人员申请或生成新的CA证书文件并导入。手动清除该告警信息,查看系统在定时检查时是否会再次产生此告警。 是,执行8。 否,处理完毕。 导入新的HA证书文件。 请参考更换HA证书章节,申请或生成新的HA证书文件并导入。手动清除
LakeFormation实例,元数据将存储于关联的数据库或LakeFormation实例中,不会随当前集群的删除而删除,多个MRS集群可共享同一份元数据。 Hive组件可选元数据存储方式功能在MRS 1.9.x及之后版本支持。 父主题: 产品功能
当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量不足问题,如果是容量不足问题需要尽快考虑集群扩容,提升集群整体容量存储。 ClickHouse节点及容量规划如下: 磁盘规划 由于ClickHou
详细操作步骤请参考创建共享型负载均衡器。 登录华为云管理控制台,在服务列表中选择“网络 > 弹性负载均衡 ELB”。 在“负载均衡器”界面右上方单击“购买弹性负载均衡”。 在“购买弹性负载均衡”界面,配置以下参数,其他参数保持默认即可: 实例类型:选择“共享型”。 计费模式:选择“按需计费”。
HDFS基本原理 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作
射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对共享相同的键组。 图1 分布式批处理引擎 MapReduce是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的Map和Reduce函数。Map函数接受一组数据并将其转换为一个键
一个RDD的算子。如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存或存储中,费时费空间;二是join作为全局的barrier,是很昂贵的,会被最慢的那个节点拖死。如果子RDD的分区到父RDD的分区是窄依赖,就可以实施经典的fusion优化,
换为资源绝对值,并取两者的最大值。缺省值是0。 share 不支持抢占的共享资源。本租户要使用这部分资源时,需要等待其他租户完成作业并释放资源。其值是百分比或绝对值。 max 允许的最大资源数量。租户无法获得比允许的最大资源多的资源。其值是百分比或绝对值。如果两者都配置,调度系统
spark.sql.hive.filesourcePartitionFileCacheSize 启用内存中分区文件元数据的缓存大小。 所有表共享一个可以使用指定的num字节进行文件元数据的缓存。 只有当“spark.sql.hive.manageFilesourcePartitions
spark.sql.hive.filesourcePartitionFileCacheSize 启用内存中分区文件元数据的缓存大小。 所有表共享一个可以使用指定的num字节进行文件元数据的缓存。 只有当“spark.sql.hive.manageFilesourcePartitions
变更MRS集群的计费模式会同时变更集群所包含的弹性云服务器的计费模式。 云硬盘 变更MRS集群的计费模式会同时变更集群弹性云服务器所挂载云硬盘的计费模式。 按需非共享云硬盘不支持单独变更为包年/包月,需跟随弹性云服务器一起变更为包年/包月,变更后到期时间与云服务器一致。 父主题: 变更计费模式
OpenTSDB OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB由时间序列守护进程(TSD)和一组命令
的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。 MRS 3.x及之后版本,备份任务提供全量备份或增量备份的策略,云数据备份任务不支持增量备份策略。如果备份的路径类型是NFS或