检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS集群部署方案说明 MRS当前提供的“分析集群”、“流式集群”和“混合集群”采用固定模板进行部署集群的进程,无法满足用户自定义部署管理角色和控制角色在集群节点中的需求。 如需自定义集群部署方式,可在创建集群时的“集群类型”选择“自定义”,实现用户自主定义集群的进程实例在集群节点中的部署方式。
'price') 流式计算采用MOR表。 流式计算为低时延的实时计算,需要高性能的流式读写能力,在Hudi表中存在的MOR和COW两种模型中,MOR表的流式读写性能相对较好,因此在流式计算场景下采用MOR表模型。关于MOR表在读写性能的对比关系如下: 对比维度 MOR表 COW表 流式写 高
支持以下集群类型: 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。 流式集群:用来做流处理任务,提供的是流式处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。 自定义:全量自定义组件组合的MRS集群,MRS 3.x及之后版本支持此类型。
Hadoop、HBase、ZooKeeper、Ranger Kafka流式集群 Kafka集群使用Kafka和Storm组件提供一个开源高吞吐量,可扩展性的消息系统。广泛用于日志收集、监控数据聚合等场景,实现高效的流式数据采集,实时数据处理存储等。 Kafka、Storm ClickHouse集群
Hudi写操作 批量写入Hudi表 流式写入Hudi表 将Hudi表数据同步到Hive 父主题: 使用Hudi
Hudi写操作 批量写入Hudi表 流式写入Hudi表 将Hudi表数据同步到Hive 父主题: 使用Hudi
HA增强高可用 配置Spark事件队列大小 配置parquet表的压缩格式 使用Ranger时适配第三方JDK 使用Spark小文件合并工具说明 配置流式读取Spark Driver执行结果 父主题: 使用Spark2x(MRS 3.x及之后版本)
数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Analysis):支持标准SQL查询分析,同时提供DSL(DataFrame),
企业项目 集群所属的企业项目,仅现有集群列表支持单击企业项目名称进入对应项目的企业项目管理页面。 安全组 集群的安全组名称。 流式Core节点LVM管理 流式Core节点的LVM管理功能是否开启。 数据盘密钥名称 用于加密数据盘的密钥名称。如需对已使用的密钥进行管理,请登录密钥管理控制台进行操作。
用户需要自己登录虚拟私有云添加安全组规则,获取公网IP等步骤,减少了用户操作步骤。 分析集群Hadoop、Spark、HBase、Hue及流式集群Storm,都可以在Manager上找到组件页面入口,快速访问。 父主题: 产品功能
使用Ranger时适配第三方JDK 使用Spark小文件合并工具说明(MRS 3.3.0及之后版本) 使用Spark小文件合并工具说明(MRS 3.3.0之前版本) 配置流式读取Spark Driver执行结果 配置Spark Executor退出时执行自定义代码 配置Spark动态脱敏 distinct聚合优化
的触发阈值(对于Flink任务来说就是compaction.delta_commits的值)。 MOR表下游采用流式计算,历史版本保留小时级。 如果MOR表的下游是流式计算,例如Flink流读,可以按照业务需要保留小时级的历史版本,这样的话近几个小时之内的增量数据可以通过log文
业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。 例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。 图3 梯联网行业低时延流式处理场景 该场景下MRS的优势如下所示。 实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。
oop、Spark、HBase、Hive、Flink、Oozie、Tez等数据分析类组件。 流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义:提
启动周期性复制 次要 12153 Manager 周期性复制完成 次要 12154 Manager 启动流式复制 次要 12155 Manager 重启流式复制 次要 12156 Manager 停止流式复制 次要 12157 Manager 周期性同步跳过 次要 12158 Manager 主机信息丢失
创建FlinkServer数据连接 创建流表 通过数据表,定义源表、维表、输出表的基本属性和字段信息。 创建FlinkServer流表源 创建SQL/JAR作业(流式/批作业) 定义Flink作业的API,包括Flink SQL和Flink Jar作业。 如何创建FlinkServer作业 作业管理 管
多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update ClickHouse的应用场景: 实时数仓场景 使用流式计算引擎(如Flink)把实时数据写入ClickHouse,借助ClickHouse的优异查询性能,在亚秒级内响应多维度、多模式的实时查询分析请求。
tablename SET TBLPROPERTIES('SORT_COLUMNS'='') 后续版本会加强自定义合并来对旧的segment重新排序。 流式表不支持修改SORT_COLUMNS。 如果inverted index的列从SORT_COLUMNS里面移除了,该列不会再创建inverted
tablename SET TBLPROPERTIES('SORT_COLUMNS'='') 后续版本会加强自定义合并来对旧的segment重新排序。 流式表不支持修改SORT_COLUMNS。 如果inverted index的列从SORT_COLUMNS里面移除了,该列不会再创建inverted
多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update ClickHouse的应用场景: 实时数仓场景 使用流式计算引擎(如Flink)把实时数据写入ClickHouse,借助ClickHouse的优异查询性能,在亚秒级内响应多维度、多模式的实时查询分析请求。