检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark SQL在不同DB都可以显示临时表 问题 切换数据库之后,为什么还能看到之前数据库的临时表? 创建一个DataSource的临时表,例如以下建表语句。 create temporary table ds_parquet using org.apache.spark.sql
设置数据节点的标签参考配置描述。 如果同一个集群上存在多个机架,每个标签下可以有多个机架的DataNodes,以确保数据块摆放的可靠性。 场景2 多机架下指定副本位置场景 场景说明: 在异构集群中,需要分配一些特定的具有高可靠性的节点用以存放重要的商业数据,可以通过标签表达式指定副本位置,指
有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS文件系统中目录结构如下表所示。 表1 HDFS文件系统目录结构(适用于MRS 3.x之前版本) 路径 类型 简略功能 是否可以删除 删除的后果 /tmp/spark/sparkhive-scratch
gion。可以在创建表时定义Region的RowKey区间,或者在配置文件中定义Region的大小。 图1 HBase数据模型 Phoenix是构建在HBase之上的一个SQL中间层,提供一个客户端可嵌入的JDBC驱动,Phoenix查询引擎将SQL输入转换为一个或多个HBase
配置HDFS单目录文件数量 操作场景 通常一个集群上部署了多个服务,且大部分服务的存储都依赖于HDFS文件系统。当集群运行时,不同组件(例如Spark、Yarn)或客户端可能会向同一个HDFS目录不断写入文件。但HDFS系统支持的单目录文件数目是有上限的,因此用户需要提前做好规划
配置HDFS单目录文件数量 操作场景 通常一个集群上部署了多个服务,且大部分服务的存储都依赖于HDFS文件系统。当集群运行时,不同组件(例如Spark、Yarn)或客户端可能会向同一个HDFS目录不断写入文件。但HDFS系统支持的单目录文件数目是有上限的,因此用户需要提前做好规划
如果用户需要在统一的运维网管平台查看集群的告警、监控数据,管理员可以在FusionInsight Manager使用SNMP服务将相关数据上报到网管平台。 前提条件 对接服务器对应的弹性云服务器需要和MRS集群的Master节点在相同的VPC,且Master节点可以访问对接服务器的IP地址和指定端口。 配置MRS集群对接SNMP网管平台上报告警
类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “最大备份数”:填写备份目录中可保留的备份文件集数量。 “服务器共享路径”:填写用户配置的NAS服务器共享目录。(服务器共享路径不能设置为根目录,且共享路径的用户组和属组必须为nobody:nobody)
告警解释 MonitorServer每隔一个小时,检查当前MonitorServer证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24013 重要 是 告警参数 参数名称
足够多的内核时,允许应用程序在同样的worker上执行多个执行程序;否则,在每个worker上,每个应用程序只能运行一个执行程序。 1 spark.shuffle.service.enabled NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。 fasle
足够多的内核时,允许应用程序在同样的worker上执行多个执行程序;否则,在每个worker上,每个应用程序只能运行一个执行程序。 1 spark.shuffle.service.enabled NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。 fasle
设置数据节点的标签参考配置描述。 如果同一个集群上存在多个机架,每个标签下可以有多个机架的DataNodes,以确保数据块摆放的可靠性。 场景2 多机架下指定副本位置场景 场景说明: 在异构集群中,需要分配一些特定的具有高可靠性的节点用以存放重要的商业数据,可以通过标签表达式指定副本位置,指
列的宽表横向扩展。 在大部分场景下,有大表两表join以及多表join的场景,且多个join的表数据变化更新频率较低,这种情况,建议对多个表join查询逻辑提前进行加工处理,将处理后的数据写入到一个宽表中,宽表中包含所有要查询的数据字段,以供后续应用完全自助OLAP的高性能查询。
对于上述出现的问题,ResourceManager在其WebUI上提供了MapReduce作业关键步骤的诊断信息,对于一个已经提交到YARN上的MapReduce任务,用户可以通过该诊断信息获取当前作业的状态以及处于该状态的原因。 具体操作:登录FusionInsight Manager,选择“集群
客户端安装请参见安装Flume客户端。 客户端可以安装集群内节点,也可以安装在集群外节点,本章节以安装目录“/opt/client”为例进行介绍,请以实际集群版本为准。 在集群外节点安装客户端前提条件 已准备一个Linux弹性云服务器,主机操作系统及版本建议参见表1。 表1 参考列表
对于上述出现的问题,ResourceManager在其WebUI上提供了MapReduce作业关键步骤的诊断信息,对于一个已经提交到YARN上的MapReduce任务,用户可以通过该诊断信息获取当前作业的状态以及处于该状态的原因。 具体操作:登录FusionInsight Manager,选择“集群
类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “最大备份数”:填写备份目录中可保留的备份文件集数量。 “服务器共享路径”:填写用户配置的NAS服务器共享目录。(服务器共享路径不能设置为根目录,且共享路径的用户组和属组必须为nobody:nobody)
Spark SQL在不同DB都可以显示临时表 问题 切换数据库之后,为什么还能看到之前数据库的临时表? 创建一个DataSource的临时表,例如以下建表语句。 create temporary table ds_parquet using org.apache.spark.sql
MRS所使用的裸金属服务器规格 针对不同的应用场景,MRS使用到如下类型的裸金属服务器。 本地存储型(D2型) IO优化型(IO2) 规格命名规则 AB.C.D 例如m2.8xlarge.8 其中, A表示系列,例如:s表示通用型、c表示计算型、m表示内存型。 B表示系列号,例如
块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。 在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split