检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark接口介绍 Spark Java API接口介绍 Spark Scala API接口介绍 Spark Python接口介绍 Spark REST API接口介绍 Spark ThriftServer接口介绍 Spark常用命令介绍 父主题: Spark应用开发常见问题
Kafka接口介绍 Kafka Shell命令介绍 Kafka Java API接口介绍 Kafka安全接口介绍 父主题: Kafka应用开发常见问题
YARN接口介绍 YARN Command介绍 YARN Java API接口介绍 YARN REST API接口介绍 Superior Scheduler REST API接口介绍 父主题: YARN开发指南(普通模式)
YARN接口介绍 YARN Command介绍 YARN Java API接口介绍 YARN REST API接口介绍 Superior Scheduler REST API接口介绍 父主题: YARN开发指南(安全模式)
YARN接口介绍 YARN Command介绍 YARN Java API接口介绍 YARN REST API接口介绍 Superior Scheduler REST API接口介绍 父主题: YARN开发指南(安全模式)
DEBUG表示记录系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作: 登录FusionInsight Manager系统。 选择“集群 > 服务 > MemArtsCC > 配置 > 全部配置”。 左边菜单栏中选择所需修改的角色所对应的日志菜单。 选择所需修改的日志级别。
表1 Spark API接口 接口类型 说明 Scala API 提供Scala语言的API,Spark Core、SparkSQL和Spark Streaming模块的常用接口请参见Spark scala API接口介绍。 Java API 提供Java语言的API,Spark
水平扩展能力 TaskManager支持手动水平扩展。 Flink开发接口简介 Flink DataStream API提供Scala和Java两种语言的开发方式,如表1所示。 表1 Flink DataStream API接口 功能 说明 Scala API 提供Scala语言的API,
信息。 本章节适用于MRS 3.x及后续版本。 操作步骤 设置参数的路径如下: 在FusionInsight Manager页面中,选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”,并在搜索框中输入参数名称。 表1 配置参数 参数 描述 默认值 dfs.client
信息。 本章节适用于MRS 3.x及后续版本。 操作步骤 设置参数的路径如下: 在FusionInsight Manager页面中,选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”,并在搜索框中输入参数名称。 表1 配置参数 参数 描述 默认值 dfs.client
不添加表1中配置项时,使用方式与原有方式一致,程序可正常执行,只是在不同模式下需切换配置。 配置参数 参数入口: 在Manager系统中,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,在搜索框中输入参数名称。 表1 参数介绍 参数 描述 默认值 spark.yarn
rue System级别: 使用用于访问HetuEngine WebUI界面的用户登录FusionInsight Manager。 选择“集群 > 服务 > HetuEngine”,进入HetuEngine服务页面。 在概览页签下的“基本信息”区域单击“HSConsole Web
ftp-connector或sftp-connector目的连接属性 参数 说明 写入目录 最终数据在文件服务器保存时的具体目录。必须指定一个目录。 文件格式 Loader支持文件服务器中存储数据的文件格式,默认支持以下两种: CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。
实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。 例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。 图3 梯联网行业低时延流式处理场景 该场景下MRS的优势如下所示。 实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。
水平扩展能力 TaskManager支持手动水平扩展。 Flink开发接口简介 Flink DataStream API提供Scala和Java两种语言的开发方式,如表1所示。 表1 Flink DataStream API接口 功能 说明 Scala API 提供Scala语言的API,
educer继承Reducer抽象类实现。 main方法提供建立一个MapReduce job,并提交MapReduce作业到hadoop集群。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.mapreduce.examples.FemaleInfoCollector类
可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1表示区域和可用区之间的关系。 图1 区域和可用区
SQL native作为SQL执行引擎来读取ORC数据,默认为hive。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围 spark.sql.orc.e
r信息,重启NodeManager服务后通过恢复此前保存的状态信息,就不会丢失在此节点上运行的container进度。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 ResourceManager Restart特性配置如下。 表1
Superior Scheduler REST API接口介绍 功能简介 REST/HTTP是Superior Scheduler在YARN资源管理器主机和YARN资源管理网络服务端口的一部分。通常以address:portasSS_REST_SERVER.的形式指示YARN。