检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark2x多主实例 背景介绍 基于社区已有的JDBCServer基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDBCServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCServer服务停止工作,也不影响用
Spark2x多租户 背景介绍 JDBCServer多主实例方案中,JDBCServer的实现使用YARN-Client模式,但YARN资源队列只有一个,为了解决这种资源局限的问题,引入了多租户模式。 多租户模式是将JDBCServer和租户绑定,每一个租户对应一个或多个JDBC
查看MRS集群组件监控指标 用户在日常使用中,可以在MRS管理所有组件(含角色实例)的状态及指标信息。状态信息包括运行、健康、配置及角色实例状态统计。指标信息为各组件的主要监控指标项。 查看MRS集群组件监控指标前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在
运行Flink作业 用户可将自己开发的程序提交到MRS中,执行程序并获取结果,本章节指导您如何在MRS集群中提交一个Flink作业。 Flink作业用于提交jar程序处理流式数据。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。
Spark应用开发常用概念 基本概念 RDD 即弹性分布数据集(Resilient Distributed Dataset),是Spark的核心概念。指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从HDFS输入
修改MRS集群节点机架信息 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。
管理MRS集群用户组 根据不同业务场景需要,管理员使用Manager创建并管理不同用户组。用户组通过绑定角色获取操作权限,用户加入用户组后,可获得用户组具有的操作权限。用户组同时可以达到对用户进行分类并统一管理多个用户。 MRS 3.x及之后版本,Manager最大支持5000个用户组(包括系统内置用户组)。
使用CDM服务迁移MySQL数据至MRS Hive 应用场景 MapReduce服务(MapReduce Service,简称MRS)提供企业级大数据集群云服务,里面包含HDFS、Hive、Spark等组件,适用于企业海量数据分析。 其中Hive提供类SQL查询语言,帮助用户对大
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
快速使用IoTDB IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,支持对接Hadoop与Spark生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。 背景信息 假定某某集团旗下有3个生产线,每个生产线
配置HDFS文件目录标签策略(NodeLabel) 配置场景 用户需要通过数据特征灵活配置HDFS文件数据块的存储节点。通过设置HDFS目录/文件对应一个标签表达式,同时设置每个DataNode对应一个或多个标签,从而给文件的数据块存储指定了特定范围的DataNode。 当使用基
配置HDFS文件目录标签策略(NodeLabel) 配置场景 用户需要通过数据特征灵活配置HDFS文件数据块的存储节点。通过设置HDFS目录/文件对应一个标签表达式,同时设置每个DataNode对应一个或多个标签,从而给文件的数据块存储指定了特定范围的DataNode。 当使用基
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
添加MRS SQL防御规则 MRS SQL防御场景 用户可以在Manager界面对指定的租户及SQL引擎添加SQL防御规则,系统会对触发规则的SQL请求进行提示、拦截或阻断操作。 为集群添加或者修改SQL防御规则时需结合业务场景进行规则是否开启以及对应规则阈值是否合理的评估,不合
添加Spark2x的Ranger访问权限策略 操作场景 Ranger管理员可通过Ranger为Spark2x用户进行相关的权限设置。 Spark2x开启或关闭Ranger鉴权后,需要重启Spark2x服务。 需要重新下载客户端,或手动刷新客户端配置文件“客户端安装目录/Spark
添加Spark2x的Ranger访问权限策略 操作场景 Ranger管理员可通过Ranger为Spark2x用户进行相关的权限设置。 Spark2x开启或关闭Ranger鉴权后,需要重启Spark2x服务。 需要重新下载客户端,或手动刷新客户端配置文件“客户端安装目录/Spark
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
快速创建和使用Kafka流式数据处理集群 操作场景 本入门提供从零开始创建流式分析集群并在Kafka主题中产生和消费消息的操作指导。 Kafka集群提供一个高吞吐量、可扩展性的消息系统,广泛用于日志收集、监控数据聚合等场景。Kafka可实现高效的流式数据采集、实时数据处理存储等。
管理Doris租户 集群管理员通过FusionInsight Manager页面可以创建Doris租户。 创建Doris租户 登录FusionInsight Manager,单击“租户资源”。 在“租户资源管理”页面单击,打开添加租户的配置页面,参见表1为租户配置属性。 表1 租户参数介绍