检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作业。 MapReduce作业用于提交Hadoop jar程序快速并行处理大量数据,是一种分布式数据处理模式。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。
Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
MRS集群所在VPC部署了VPCEP后集群补丁安装失败 问题现象 通过MRS管理控制台为MRS集群在线安装补丁,补丁安装失败,报错日志信息中提示访问OBS 403无权限。 原因分析 用户集群所在VPC中,部署并配置了VPC终端节点(VPCEP)。相关的终端节点策略中,未允许MRS
MRS作业类型介绍 MRS作业分类 MRS作业是MRS为用户提供的程序执行平台,用于处理和分析用户数据。用户可以在MRS管理控制台中在线创建作业任务,也可以通过集群客户端后台方式提交作业。 MRS作业处理的数据通常来源于OBS或HDFS,用户创建作业前需要将待分析数据上传至OBS
SQL语句和SQL脚本文件查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句中涉及敏感信息,也可使用脚本文件方式提交。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
FS文件进行操作,使用Hive客户端对Hive表进行操作。 Oozie作业设计器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 在左侧导航栏单击,选择“Workflow”。 在作业设计器,支持用户创建MapReduce、Java、Streaming、Fs、Ssh、Shell和DistCp作业。
数目。 支持日志在线检索和日志收集。 支持在线检索ClickHouse日志内容。 登录FusionInsight Manager界面,访问“运维 > 日志 > 在线检索”,在“服务”中选择“ClickHouse”,“检索内容”填写日志检索关键字,通过“检索”在线检索ClickHouse日志内容。
请参见删除HBase表数据。 8 A业务结束后,删除用户信息表。 请参见删除HBase表。 关键设计原则 HBase是以RowKey为字典排序的分布式数据库系统,RowKey的设计对性能影响很大,具体的RowKey设计请考虑与业务结合。 父主题: HBase数据读写样例程序
请参见删除HBase表数据。 8 A业务结束后,删除用户信息表。 请参见删除HBase表。 关键设计原则 HBase是以RowKey为字典排序的分布式数据库系统,RowKey的设计对性能影响很大,具体的RowKey设计请考虑与业务结合。 父主题: HBase数据读写示例程序
请参见删除HBase数据。 7 A业务结束后,删除用户信息表。 请参见删除HBase表。 关键设计原则 HBase是以RowKey为字典排序的分布式数据库系统,RowKey的设计对性能影响很大,具体的RowKey设计请考虑与业务结合。 父主题: 开发HBase应用
力超10000节点。Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器。Superior Scheduler可实现开源调度器、Fair Scheduler以及Capacity
Hudi应用开发规范 Hudi开发规范概述 Hudi数据表设计规范 Hudi数据表管理操作规范 Spark on Hudi开发规范 Bucket调优示例
[编号]”。最多保留最近的20个压缩文件,压缩文件保留个数和压缩文件阈值可以配置。 表1 Guardian日志列表 日志类型 日志文件名 描述 是否支持Manager在线检索 运行日志 token-server.log Guardian服务运行时的日志。 是 startDetail.log Guardian服务预启动日志。
lse); HBase不支持条件查询和Orderby等查询方法,存储按照字典排序,读取只支持Rowkey扫描 设计时应避免HBase随机查找、排序的应用场景。 业务表设计建议 预分Region,使Region分布均匀,提高并发 避免过多的热点Region。根据应用场景,可考虑将时间因素引入Rowkey。
配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优
FS文件进行操作,使用Hive客户端对Hive表进行操作。 Oozie作业设计器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 在左侧导航栏单击,选择“Workflow”。 在作业设计器,支持用户创建MapReduce、Java、Streaming、Fs、Ssh、Shell和DistCp作业。
Service提升Spark Core性能 配置Yarn模式下Spark动态资源调度 调整Spark Core进程参数 Spark DAG设计规范说明 经验总结 父主题: 使用Spark/Spark2x
Service提升Spark Core性能 配置Yarn模式下Spark动态资源调度 调整Spark Core进程参数 Spark DAG设计规范说明 经验总结 父主题: 使用Spark2x(MRS 3.x及之后版本)