检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS
单位:byte。 134217728(即128M) spark.files.openCostInBytes 打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。 4M 父主题: Spark SQL性能调优
Key封装成一个List<Get>,然后请求这个列表以获取数据的查询方式。该方式能避免每个Row Key都发起一次请求。 HBase单表查询范围扫描优化 HBase单表查询范围扫描优化是指根据HBase的列的谓词条件尝试自动推断rowkey的起止地址,在tableScan的时候设置hbase scan起止地址从而提高访问性能。
作业。 MapReduce作业用于提交Hadoop jar程序快速并行处理大量数据,是一种分布式数据处理模式。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。
SQL语句和SQL脚本文件查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句中涉及敏感信息,也可使用脚本文件方式提交。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。
能大数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引、字典编码、预聚合、动态Partition、准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应。同时MRS支持自研增强型调度器Superior,突破单集群规模瓶颈,单集群调度能力超10000节点。
通过数据治理中心DataArts Studio,用户可以先在线开发调试MRS HQL/SparkSQL脚本、拖拽式地开发MRS作业,完成MRS与其他20多种异构数据源之间的数据迁移和数据集成;通过强大的作业调度与灵活的监控告警,轻松管理数据作业运维。 目前MRS集群支持在线创建如下几种类型的作业: Map
购买时,“防护主机数量”需跟MRS集群中的节点数量保持一致。 图3 防护主机数量 步骤二 安装Agent Linux版本 Windows版本 Agent是用于执行检测任务,全量扫描主机,实时监测主机的安全状态。 步骤三 开启主机防护 开启主机安全防护时,按照一台主机对应一个配额的关系进行绑定,只有绑定配额的主机才能正常防护。
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS
取结果,本章节指导您如何在MRS集群中提交一个Flink作业。 Flink作业用于提交jar程序处理流式数据。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 操作视频 本视频以在未开启Kerberos认证的MRS 3.1
MapReduce服务 MRS MRS集群健康检查 03:25 MRS集群健康检查 MapReduce服务 MRS 在线检索和下载MRS集群日志 03:48 在线检索和下载MRS集群日志 MapReduce服务 MRS 创建MRS集群用户 05:19 创建MRS集群用户 组件知识培训
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
Compaction很有意义。 异步Compaction会进行如下两个步骤: 调度Compaction:由入湖作业完成,在这一步,Hudi扫描分区并选出待进行compaction的FileSlice,最后CompactionPlan会写入Hudi的Timeline。 执行Comp
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
MRS集群所在VPC部署了VPCEP后集群补丁安装失败 问题现象 通过MRS管理控制台为MRS集群在线安装补丁,补丁安装失败,报错日志信息中提示访问OBS 403无权限。 原因分析 用户集群所在VPC中,部署并配置了VPC终端节点(VPCEP)。相关的终端节点策略中,未允许MRS
MRS作业类型介绍 MRS作业分类 MRS作业是MRS为用户提供的程序执行平台,用于处理和分析用户数据。用户可以在MRS管理控制台中在线创建作业任务,也可以通过集群客户端后台方式提交作业。 MRS作业处理的数据通常来源于OBS或HDFS,用户创建作业前需要将待分析数据上传至OBS
Compaction很有意义。 异步Compaction会进行如下两个步骤: 调度Compaction:由入湖作业完成,在这一步,Hudi扫描分区并选出待进行compaction的FileSlice,最后CompactionPlan会写入Hudi的Timeline。 执行Comp
taging目录下文件 否 MR任务日志丢失 /tmp/hadoop-yarn/staging/history/done 固定目录 周期性扫描线程定期将done_intermediate的日志文件转移到done目录 否 MR任务日志丢失 /tmp/mr-history 固定目录 存储预加载历史记录文件的路径
对于可以压缩的数据,配置压缩算法可以有效减少磁盘的IO,从而达到提高性能的目的。 说明: 并非所有数据都可以进行有效压缩。例如一张图片的数据,因为图片一般已经是压缩后的数据,所以压缩效果有限。常用的压缩算法是SNAPPY,因为它有较好的Encoding/Decoding速度和可以接受的压缩率。
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高