检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是MapReduce服务 大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了
表1 HetuEngine依赖的组件 名称 描述 HDFS Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。
高吞吐量 Kafka通过以下方式提供系统高吞吐量: 数据磁盘持久化:消息不在内存中缓存,直接写入到磁盘,充分利用磁盘的顺序读写性能。 Zero-copy:减少IO操作步骤。 数据批量发送:提高网络利用率。
Hadoop、HBase、ZooKeeper、Ranger Kafka流式集群 Kafka集群使用Kafka和Storm组件提供一个开源高吞吐量,可扩展性的消息系统。广泛用于日志收集、监控数据聚合等场景,实现高效的流式数据采集,实时数据处理存储等。
当设置“setBufferTimeout(-1)”,会等待缓冲区满之后才会刷新,使其达到最大吞吐量;当设置“setBufferTimeout(0)”时,可以最小化延迟,数据一旦接收到就会刷新;当设置“setBufferTimeout”大于0时,缓冲区会在该时间之后超时,然后进行缓冲区的刷新
在万兆网部署下,可适当增大该参数值,来提升传输的吞吐量。 262144 父主题: HDFS性能调优
当设置“setBufferTimeout(-1)”,会等待缓冲区满之后才会刷新,使其达到最大吞吐量;当设置“setBufferTimeout(0)”时,可以最小化延迟,数据一旦接收到就会刷新;当设置“setBufferTimeout”大于0时,缓冲区会在该时间之后超时,然后进行缓冲区的刷新
在万兆网部署下,可适当增大该参数值,来提升传输的吞吐量。 262144 父主题: HDFS性能调优
ALM-12049 网络读吞吐率超过阈值 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 >
具体可以按照下面的计算公式来保留2个小时的历史版本数据: 版本数设置为3600*2/版本interval时间,版本interval时间来自于flink作业的checkpoint周期,或者上游批量写入的周期。 COW表如果业务没有历史版本数据保留的特殊要求,保留版本数设置为1。
HDFS和MapReduce的关系 HDFS是Hadoop分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。 而MapReduce是一种编程模型,用于大数据集(大于1TB)的并行运算。
当输入的数据被触发处理时,每个key只需一个操作即可访问状态,可以很大程度减少状态开销并获得更好的吞吐量。但是可能会增加一些延迟,因为它会缓冲一些记录而不是立即处理,这是吞吐量和延迟之间的权衡。默认未开启该功能。
计算公式为:并行归档任务数=待归档的日志文件总大小/归档文件大小。 配置描述 进入Mapreduce服务参数“全部配置”界面,具体操作请参考修改集群服务配置参数章节。 在搜索框中输入参数名称,修改并保存配置。然后在Mapreduce服务“概览”页面选择“更多 > 同步配置”。
计算公式为:并行归档任务数=待归档的日志文件总大小/归档文件大小。 配置描述 进入Mapreduce服务参数“全部配置”界面,具体操作请参考修改集群服务配置参数章节。 在搜索框中输入参数名称,修改并保存配置。然后在Mapreduce服务“概览”页面选择“更多 > 同步配置”。
ALM-12050 网络写吞吐率超过阈值 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 >
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机
缩容MRS集群 用户可以根据业务需求量,通过简单的缩减Core节点或者Task节点,对集群进行缩容,以使MRS拥有更优的存储、计算能力,降低运维成本。 当集群正在进行主备同步操作时,不允许进行缩容操作。 包周期集群不支持该方式缩容,仅按需计费集群支持该方式缩容。如需缩容包周期计费类型的节点
ALM-12052 TCP临时端口使用率超过阈值 告警解释 系统每30秒周期性检测TCP临时端口使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到TCP临时端口使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称
在滚动重启Kafka服务时, 如果Kafka服务业务吞吐量很高(100MB/s以上的情况下),会出现Kafka服务滚动重启失败的情况。