检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kafka数据消费概述 Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据
Kafka基本原理 Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)
数据迁移到MRS前信息收集 由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,以能够更好的进行迁移决策。 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。
Spark提供一站式数据分析能力,包括小批量流式处理、离线批处理、SQL查询、数据挖掘等,用户可以在同一个应用中无缝结合使用这些能力。Spark2x的开源新特性请参考Spark2x开源新特性说明。
Bucket调优示例 创建Bucket索引表调优 Hudi表初始化 实时任务接入 离线Compaction配置 父主题: Hudi应用开发规范
使用HBase 创建HBase权限角色 HBase客户端使用实践 快速使用HBase进行离线数据分析 使用BulkLoad工具向HBase迁移数据 HBase数据操作 HBase企业级能力增强 HBase性能调优 HBase运维管理 HBase常见问题 HBase故障排除
使用HBase 创建HBase权限角色 HBase客户端使用实践 快速使用HBase进行离线数据分析 使用BulkLoad工具向HBase迁移数据 HBase数据操作 HBase企业级能力增强 HBase性能调优 HBase运维管理 HBase常见问题 HBase故障排除
Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。 父主题: Hive应用开发概述
本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,对网站的日志文件进行离线分析。
本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,对网站的日志文件进行离线分析。
分析集群:用来做离线数据分析,提供Hadoop体系的组件。 流式集群:用来做流处理任务,提供流式处理组件。 混合集群:既可以用来做离线数据分析,又可以用来做流处理任务,提供Hadoop体系的组件和流式处理组件。
Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。
离线查询场景 把规模庞大的业务数据导入到ClickHouse,构造数亿至数百亿记录规模、数百以上的维度的大宽表,随时进行个性化统计和持续探索式查询分析,辅助商业决策,具有非常好的查询体验。
安装补丁过程包括组件重启,该补丁只支持离线重启,重启过程不能省略。 安装补丁流程 补丁安装流程如图1所示。 图1 安装补丁流程 父主题: MRS 3.3.0.3.1补丁说明
Impala主要应用于实时查询数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景。 父主题: Impala应用开发概述
安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法。重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。 安装补丁流程 补丁安装流程如图1所示。
安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法。重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。 安装补丁流程 补丁安装流程如图1所示。
Impala主要应用于实时查询数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。 父主题: Impala应用开发概述
Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。
离线查询场景 把规模庞大的业务数据导入到ClickHouse,构造数亿至数百亿记录规模、数百以上的维度的大宽表,随时进行个性化统计和持续探索式查询分析,辅助商业决策,具有非常好的查询体验。