检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kafka作为一个消息发布-订阅系统,为整个大数据平台多个子系统之间数据的传递提供了高速数据流转方式。 Kafka可以实时接受来自外部的消息,并提供给在线以及离线业务进行处理。 Kafka与其他组件的具体的关系如下图所示: 图1 与其他组件关系 父主题: Kafka
Kafka客户端ACK配置Acks - 数据迁移模型样例 一个离线分析平台的客户业务系统,由Spark Streaming消费Kafka数据存入HDFS,HDFS上进行小文件合并后加载到Hive表中,运营人员可以通过Presto进行Hive数据查询。 图1 源集群业务图 针对大数据离线平台包括HDFS和Hive数据需要迁移,Kafka、Spark
资产识别与管理 通信安全授权 MRS服务通过管理控制台为用户发放、管理和使用大数据组件,大数据组件部署在用户的VPC内部,MRS管理控制台需要直接访问部署在用户VPC内的大数据组件时需要开通相应的安全组规则,而开通相应的安全组规则需要获取用户授权,此授权过程称为通信安全授权。 通
HDFS开源增强特性 HDFS开源增强特性:文件块同分布(Colocation) 离线数据汇总统计场景中,Join是一个经常用到的计算功能,在MapReduce中的实现方式大体如下: Map任务分别将两个表文件的记录处理成(Join Key,Value),然后按照Join Key
oop作业,用于统计海量文本的单词数量。 Hadoop集群完全使用开源Hadoop生态,采用Yarn管理集群资源,提供Hive、Spark离线大规模分布式数据存储和计算及进行海量数据分析与查询的能力。 操作流程 开始使用如下样例前,请务必按准备工作指导完成必要操作。 创建MRS集群:创建一个MRS
Spark基本原理 Spark简介 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用,对数据进行离线处理、流式处理、交互式分析等。 Spark提供了一个快速的计算、写入及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark
相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用,对数据进行离线处理、流式处理、交互式分析等。 相比于Hadoop,Spark拥有明显的性能优势。 父主题: 使用Spark/Spark2x
补丁安装完成后,需要手动重启相关大数据组件服务,使补丁生效。 提供两种重启方式,请根据业务自行选择重启方式: 滚动重启:影响小,耗时长。 离线重启:会断服,耗时短。 登录MRS管理控制台或FusionInsight Manager界面。 重启相关组件。 在MRS控制台,选择“现有
升级安装失败或者重试后仍然失败,不能直接回滚,请联系运维人员。 修改配置 不涉及。 重启相关组件 补丁安装完成后,需要手动重启相关大数据组件服务,使补丁生效。 当前补丁只支持离线重启。 登录MRS管理控制台或FusionInsight Manager界面。 重启相关组件。 在MRS控制台,选择“现有集群”,单击集群
实时OLAP场景介绍 离线数据加载:通过CDM将Hive外表数据迁移到Doris 离线数据加载:通过Doris Catalog读取Hive外表数据并写入Doris 离线数据加载:通过Doris Catalog读取RDS-MySQL数据并写入Doris 离线数据加载:通过Spark
能获得更多的性能提升。FILTER是用于聚合函数的修饰符,用于限制聚合中使用的值。 【示例】在某些场景下需要从不同维度来统计UV,如Android中的UV,iPhone中的UV,Web中的UV和总UV,这时可能会使用如下CASE WHEN语法。 修改前: SELECT day, COUNT(DISTINCT
ve应用开发简介。 基本操作流程如下所示: 步骤1:创建MRS离线查询集群 步骤2:创建OBS委托并绑定至MRS集群 步骤3:创建Hive表并加载OBS中数据 步骤4:基于HQL对数据进行分析 步骤1:创建MRS离线查询集群 进入购买MRS集群页面。 选择“快速购买”,填写软件配置参数。
中提交一个SparkSubmit作业。 Spark是一个开源的并行数据处理框架,能够帮助用户简单、快速的开发,统一的大数据应用,对数据进行离线处理、流式处理、交互式分析等。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件
、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。 StarRocks既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。 StarRocks兼容MySQL协议,可使用MySQL客户端和常用BI工具对
ALM-12014 设备分区丢失 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。 告警属性 告警ID 告警级别 是否自动清除 12014 重要 是:MRS 3.3.0及之后版本、MRS 3.1.0
Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 Kafka结构
Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 Kafka结构
Bucket调优示例 创建Bucket索引表调优 Hudi表初始化 实时任务接入 离线Compaction配置 父主题: Hudi应用开发规范
物联网时序数据分析 物联网时序数据分析场景介绍 手动将CSV离线数据导入至IoTDB 使用HetuEngine查询IoTDB时序数据 使用Grafana对接IoTDB数据库 父主题: 数据分析
使用HBase 创建HBase权限角色 HBase客户端使用实践 快速使用HBase进行离线数据分析 使用BulkLoad工具向HBase迁移数据 HBase数据操作 HBase企业级能力增强 HBase性能调优 HBase运维管理 HBase常见问题 HBase故障排除