检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
Yarn日志介绍 日志描述 Yarn相关日志的默认存储路径如下: ResourceManager:“/var/log/Bigdata/yarn/rm”(运行日志),“/var/log/Bigdata/audit/yarn/rm”(审计日志) NodeManager:“/var/l
Yarn日志介绍 日志描述 Yarn相关日志的默认存储路径如下: ResourceManager:“/var/log/Bigdata/yarn/rm”(运行日志),“/var/log/Bigdata/audit/yarn/rm”(审计日志) NodeManager:“/var/l
配置Ranger元数据存储至RDS 本章节旨在指导用户将现有集群的Ranger元数据切换为RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Ranger元数据的迁移。 停用集群组件Ranger鉴权 该操作仅在MRS
备份Manager数据(MRS 2.x及之前版本) 操作场景 为了确保元数据信息安全,或者用户在对元数据功能进行重大操作(如扩容缩容、安装补丁包、升级或迁移等)前后,需要对元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。元数据
缩容MRS集群 用户可以根据业务需求量,通过简单的缩减Core节点或者Task节点,对集群进行缩容,以使MRS拥有更优的存储、计算能力,降低运维成本。 当集群正在进行主备同步操作时,不允许进行缩容操作。 包周期集群不支持该方式缩容,仅按需计费集群支持该方式缩容。如需缩容包周期计费
安装客户端(3.x之前版本) 操作场景 用户需要使用MRS客户端。MRS集群客户端可以安装在集群内的Master节点或者Core节点,也可以安装在集群外节点上。 MRS 3.x之前版本集群在集群创建后,在主Master节点默认安装有客户端,可以直接使用,安装目录为“/opt/client”。
约束与限制 使用MRS前,您需要认真阅读并了解以下使用限制。 MRS集群创建限制 表1 MRS集群创建约束说明 限制项 说明 网络要求 MRS集群必须创建在VPC子网内。 创建MRS集群时,支持自动创建安全组,也可选择已有的安全组。 MRS集群使用的安全组请勿随意放开权限,避免被恶意访问。
配置MRS集群间互信 当不同的两个Manager系统下安全模式的集群需要互相访问对方的资源时,系统管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。 如果未配置跨集群互信,每个集群资源仅能被本集群用户访问。每个系统用户安全使用的范围定义为“域”,不同的Manager系
MapReduce统计样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发MapReduce应用程序实现如下功能。 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
配置Hive读取Hudi表 Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS的数据,通过Spark组件、Flink组件或者Hudi客户端,可以将Hudi表的数据映射为Hive外部表,基于该外部表,Hive可以进行实时视图查询、读优化视图查询以及增量视图查询。 根据
配置Spark通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在Spark客户端创建Location为OBS路径的表。 Spark对接OBS MRS集群支持Spark服务在创建表时指定Location为OBS文件系统路径,也支持基于Hive
通过ELB访问ClickHouse 当前ClickHouse不管是多分片还是多副本都是以集群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多节点
配置通过ELB访问ClickHouse 当前ClickHouse不管是多分片还是多副本都是以集群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多
访问MRS集群Manager(2.x及之前版本) 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
访问MRS集群Manager 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
Spark Scala API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的开源API。 Spark Core常用接口 Spark主要使用到如下这几个类: SparkContext:是Spark的对外接口,负责向调用该类的scal