检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资产识别与管理 通信安全授权 MRS服务通过管理控制台为用户发放、管理和使用大数据组件,大数据组件部署在用户的VPC内部,MRS管理控制台需要直接访问部署在用户VPC内的大数据组件时需要开通相应的安全组规则,而开通相应的安全组规则需要获取用户授权,此授权过程称为通信安全授权。 通
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
例”查看已创建的实例。 虚拟私有云 需要与待对接的MRS集群在同一虚拟私有云。 子网 选择子网名称。 VPC终端节点 选择VPC终端节点,或单击“创建对应LakeFormation实例的VPC终端节点”进行创建。 选择VPC终端节点后,产生的费用将由VPCEP服务收取。 LakeFormation委托
下载MRS集群客户端进行使用,但是一直提示网络或者参数有问题。 原因分析 可能是两台主机处于不同VPC网络中。 密码填写错误。 远端主机开启了防火墙。 处理步骤 两台主机处于不同VPC网络中 放开远端主机的22端口。 密码填写错误 请检查密码是否正确,密码中不能有特殊符号。 远端主机开启防火墙
连接到HBase响应慢 问题现象 在相同的VPC下,外部集群通过Phoenix连接到HBase时,响应较慢。 原因分析 客户配置了DNS服务,由于客户端连接到HBase先通过DNS来解析服务器端,所以导致响应慢。 处理步骤 以root用户登录Master节点。 执行vi /etc/resolv
参数介绍具体可参见Loader连接配置说明。 单击“保存”。 如果连接配置,例如IP地址、端口、访问用户等信息不正确,将导致验证连接失败无法保存。另外VPC相关设置,也可能影响网络连通性。 用户可以直接单击“测试”立即检测连接是否可用。 查看连接 在Loader页面,单击“管理连接”。 如果集群启用了Ke
Kafka与其他组件的关系 Kafka作为一个消息发布-订阅系统,为整个大数据平台多个子系统之间数据的传递提供了高速数据流转方式。 Kafka可以实时接受来自外部的消息,并提供给在线以及离线业务进行处理。 Kafka与其他组件的具体的关系如下图所示: 图1 与其他组件关系 父主题: Kafka
在弹性云服务器管理控制台,申请一个新的弹性云服务器,用于应用开发运行调测。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的网卡需要与MRS集群在同一个网段中。 申请弹性IP,绑定新申请的弹性云主机IP,并配置安全组出入规则。
Executor执行这些Task,将具体RDD的数据写入到步骤1创建的目录下。 HDFS和ZooKeeper的关系 ZooKeeper与HDFS的关系如图3所示。 图3 ZooKeeper和HDFS的关系 ZKFC(ZKFailoverController)作为一个ZooKeeper集
Spark与其他组件的关系 Spark和HDFS的关系 通常,Spark中计算的数据可以来自多个数据源,如Local File、HDFS等。最常用的是HDFS,用户可以一次读取大规模的数据进行并行计算。在计算完成后,也可以将数据存储到HDFS。 分解来看,Spark分成控制端(D
文件都可以存储在Hadoop HDFS文件系统上。 HBase和ZooKeeper的关系 HBase和ZooKeeper的关系如图 ZooKeeper和HBase的关系所示。 图1 HBase和ZooKeeper的关系 HRegionServer以Ephemeral node的方
数据库、表、分区等的结构和属性信息(即Hive的元数据),这些信息需要存放在一个关系型数据库中,由MetaStore管理和处理。在产品中,Hive的元数据由DBService组件存储和维护,由Metadata组件提供元数据服务。 Hive与Spark的关系 Hive支持使用Spa
Storm与其他组件的关系 Storm,提供实时的分布式计算框架,它可以从数据源(如Kafka、TCP连接等)中获得实时消息数据,在实时平台上完成高吞吐、低延迟的实时计算,并将结果输出到消息队列或者进行持久化。Storm与其他组件的关系如图1所示: 图1 组件关系图 Storm和Streaming的关系
Flink与其他组件的关系 Flink与Yarn的关系 Flink支持基于Yarn管理的集群模式,在该模式下,Flink作为Yarn上的一个应用,提交到Yarn上执行。 Flink基于Yarn的集群部署如图1所示。 图1 Flink基于Yarn的集群部署 Flink Yarn C
Yarn与其他组件的关系 Yarn和Spark组件的关系 Spark的计算调度方式,可以通过Yarn的模式实现。Spark共享Yarn集群提供丰富的计算资源,将任务分布式的运行起来。Spark on Yarn分两种模式:Yarn Cluster和Yarn Client。 Yarn
Hue与其他组件的关系 Hue与Hadoop集群的关系 Hue与Hadoop集群的交互关系如图1所示。 图1 Hue与Hadoop集群 表1 Hue与其它组件的关系 名称 描述 HDFS HDFS提供REST接口与Hue交互,用于查询、操作HDFS文件。 在Hue把用户请求从用户
Language语言操作结构化数据存储服务和基本的数据分析服务。 ZooKeeper 提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。 KrbServer 密钥的管理中心,负责票据的分发。 Yarn 资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。 DBService
Doris与其他组件的关系 Doris与HDFS组件的关系 Doris支持导入和导出HDFS数据,并且支持直接查询HDFS数据源。 Doris与Hudi组件的关系 Doris支持直接查询Hudi数据源。 Doris与Spark组件的关系 使用Spark Doris Connect
MemArtsCC与其他组件的关系 MemArtsCC与OBS的关系 OBS提供一种新的InputStream:OBSMemArtsCCInputStream,该InputStream从部署在计算侧上的MemArtsCC集群读取数据,从而减少OBS服务端压力,提升数据读取性能的目标。
集群生命周期管理 MRS支持集群的生命周期管理包括创建集群和删除集群。 创建集群:支持用户定制集群的类型、组件范围、各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与;同时支持用户在集群中运行自定义内容;支持快速创