检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SparkSql作业用于查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句涉及敏感信息,也可使用脚本文件方式提交。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 操作视频 本视频以在MRS集群的管理控制台上提交并查看SparkSql作业为例进行说明。
HetuEngine应用开发简介 HetuEngine简介 HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine基本概念
HetuEngine应用开发简介 HetuEngine简介 HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine基本概念 HSBroker:
在“现有集群”列表中,单击已创建的集群名称。 记录集群的“可用分区”、“虚拟私有云”、“集群控制台地址”,以及Master节点的“默认安全组”。 在弹性云服务管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。
HetuEngine基本原理 HetuEngine简介 HetuEngine是自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine结构 HetuEn
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
MRS作业类型介绍 MRS作业分类 MRS作业是MRS为用户提供的程序执行平台,用于处理和分析用户数据。用户可以在MRS管理控制台中在线创建作业任务,也可以通过集群客户端后台方式提交作业。 MRS作业处理的数据通常来源于OBS或HDFS,用户创建作业前需要将待分析数据上传至OBS
SQL语句和SQL脚本文件查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句中涉及敏感信息,也可使用脚本文件方式提交。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。
息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 Kafka结构
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
作业。 MapReduce作业用于提交Hadoop jar程序快速并行处理大量数据,是一种分布式数据处理模式。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。
Spark是一个开源的并行数据处理框架,能够帮助用户简单、快速的开发,统一的大数据应用,对数据进行离线处理、流式处理、交互式分析等。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将运行作业所需的程序包和数据文件上传至OBS系统或HDFS中。
取结果,本章节指导您如何在MRS集群中提交一个Flink作业。 Flink作业用于提交jar程序处理流式数据。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 操作视频 本视频以在未开启Kerberos认证的MRS 3.1
整型 资源池YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 ResourcePoolCPUAvailablePercentage 百分比 资源池YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。
在“现有集群”列表中,单击已创建的集群名称。 记录集群的“可用分区”、“虚拟私有云”、“集群控制台地址”,以及Master节点的“默认安全组”。 在弹性云服务管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。
据。 外置数据连接:MRS集群创建完成后,可选择关联与当前集群同一虚拟私有云和子网的RDS服务中的PostgresDB或MySQL数据库或云数据库GaussDB(for MySQL)、也可以选择与当前集群同一虚拟私有云和子网的LakeFormation实例,元数据将存储于关联的数
正式编写脚本前,您需要将所需安装包、配置包的所有相关文件都上传到同Region的OBS文件系统中。 因为不同Region间有网络隔离,MRS虚拟机无法下载其他Region上的OBS文件。 脚本中如何从OBS文件系统下载文件。 您可以在脚本中指定从OBS下载需要的文件。如果将文件上传到私有文件系统,需要用hadoop
责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数据连接:可以为MRS集群选择关联与当前MRS集群同一虚拟私有云和子网的外置数据连接。元数据将存储于关联的数据库中,不会随当前集群的删除而删除,多个MRS集群可共享同一份元数据。 MRS集群支持的外置数据连接类型为:
数目。 支持日志在线检索和日志收集。 支持在线检索ClickHouse日志内容。 登录FusionInsight Manager界面,访问“运维 > 日志 > 在线检索”,在“服务”中选择“ClickHouse”,“检索内容”填写日志检索关键字,通过“检索”在线检索ClickHouse日志内容。