检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置ResourceManager重启后自动加载Container信息 配置场景 YARN Restart特性包含两部分内容:ResourceManager Restart和NodeManager Restart。 当启用ResourceManager Restart时,升主后的
Flink常见问题 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Gabage Collection,垃圾回收),但是task执行时间严重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 调用rebalance操作,使数据分区均匀。
Flink常见问题 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Gabage Collection,垃圾回收),但是task执行时间严重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 调用rebalance操作,使数据分区均匀。
Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred 问题 Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred。 回答 用户提交查看applic
使用Jupyter Notebook对接MRS Spark 应用场景 在MRS服务中可以配合Jupyter Notebook使用PySpark,能够提高机器学习、数据探索和ETL应用开发效率。 本实践指导用户如何在MRS集群中配置Jupyter Notebook来使用Pyspark。
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入HBase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在hb
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入HBase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在hb
Flink Kafka样例程序开发思路 场景说明 假定某个Flink业务每秒就会收到1个消息记录。 基于某些业务要求,开发的Flink应用程序实现功能:实时输出带有前缀的消息内容。 数据规划 Flink样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafk
Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred 问题 Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred。 回答 用户提交查看applic
开启HBase Multicast功能 HBase Multicast特性涉及Publisher(HMaster)以及Listener(客户端)两个角色,通过设置配置“hbase.status.published”值为“true”开启。MRS 3.5.0及之后版本,Publisher端默认开启了该特性。
Spark Streaming对接Kafka0-10样例程序开发思路 场景说明 假定某个业务Kafka每1秒就会收到1个单词记录。 基于某些业务要求,开发的Spark应用程序实现如下功能: 实时累加计算每个单词的记录总数。 “log1.txt”示例文件: LiuYang YuanJing
Flink Kafka样例程序开发思路 场景说明 假定某个Flink业务每秒就会收到1个消息记录。 基于某些业务要求,开发的Flink应用程序实现功能:实时输出带有前缀的消息内容。 数据规划 Flink样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafk
Spark Streaming对接Kafka0-10样例程序开发思路 场景说明 假定某个业务Kafka每1秒就会收到1个单词记录。 基于某些业务要求,开发的Spark应用程序实现如下功能: 实时累加计算每个单词的记录总数。 “log1.txt”示例文件: LiuYang YuanJing
多租户资源管理 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。
配置ResourceManager重启后自动加载Container信息 配置场景 YARN Restart特性包含两部分内容:ResourceManager Restart和NodeManager Restart。 当启用ResourceManager Restart时,升主后的
物联网时序数据分析场景介绍 在物联网场景中,海量设备采集的数据需要进行低延迟的高效接入、存储和分析,数据具有高度的时间属性相关特点,传统数据库基于二维表的数据模型,无法满足物联网场景下高效的时序数据存储和分析需求。时序数据库则是专门针对物联网时序数据场景设计的存算引擎,数据按设备
YARN基本原理 为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。 YARN是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建
MRS集群的节点如何安装主机安全服务? 操作场景 MRS集群中的节点可以使用主机安全服务(Host Security Service,HSS)提供的主机管理、风险预防、入侵检测等功能,识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为,帮助企业构建服务器安全体系,降低当前服务器面临的主要安全风险。
配置HDFS客户端元数据缓存提高读取性能 操作场景 通过使用客户端缓存元数据块的位置来提高HDFS读取性能。 此功能仅用于读取不经常修改的文件。因为在服务器端由某些其他客户端完成的数据修改,对于高速缓存的客户端将是不可见的,这可能导致从缓存中拿到的元数据是过期的。 本章节适用于MRS
Loader基本原理 Loader是在开源Sqoop组件的基础上进行了一些扩展,实现MRS与关系型数据库、文件系统之间交换“数据”、“文件”,同时也可以将数据从关系型数据库或者文件服务器导入到HDFS/HBase中,或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。