检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS组件应用开发简介 MRS是企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据的分析挖掘,发现全新价值点和企业商机。 MRS提供了各组件的常见业务场景样例程序,开发者用户可基于样例工程进行相关数据应用的开发与编译,样例工程依赖
Hudi Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的功能。 如需使用Hudi,请确保MRS集群内已安装Spark/Spark2x服务。
在Hue WebUI使用元数据浏览器 操作场景 用户需要使用图形化界面在集群中管理Hive的元数据,可以通过Hue完成任务。 Metastore管理器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 选择“Data Browsers > Metastore Tables”,进入“Metastore
配置Hive表、列或数据库的用户权限 操作场景 使用Hive表或者数据库时,如果用户访问别人创建的表或数据库,需要授予对应的权限。为了实现更严格权限控制,Hive也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager角色管理功能在表授权、列授权和数据库授权三个场景下的操作。
使用Loader从关系型数据库导入数据到HDFS/OBS 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到HDFS/OBS。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取关系型数据库使用的用户和密码。
and t2.id = t3.cardNo; HetuEngine跨域功能简介 HetuEngine提供统一标准SQL对分布于多个地域(或数据中心)的多种数据源实现高效访问,屏蔽数据在结构、存储及地域上的差异,实现数据与应用的解耦。 图2 HetuEngine跨域功能示意 跨域关键技术和优势
Manager:云专线用于搭建用户本地数据中心与线上云VPC之间高速、低时延、稳定安全的专属连接通道,充分利用线上云服务优势的同时,继续使用现有的IT设施,实现灵活一体,可伸缩的混合计算环境。 操作前请确保云专线服务可用,并已打通本地数据中心到线上VPC的连接通道。云专线详情请参考什么是云专线。
Manager:云专线用于搭建用户本地数据中心与线上云VPC之间高速、低时延、稳定安全的专属连接通道,充分利用线上云服务优势的同时,继续使用现有的IT设施,实现灵活一体,可伸缩的混合计算环境。 操作前请确保云专线服务可用,并已打通本地数据中心到线上VPC的连接通道。云专线详情请参考什么是云专线。
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
如何对Hive表大小数据进行监控 问题 如何对Hive中的表大小数据进行监控? 回答 当用户要对Hive表大小数据进行监控时,可以通过HDFS的精细化监控对指定表目录进行监控,从而到达监控指定表大小数据的目的。 前提条件 Hive、HDFS组件功能正常 HDFS精细化监控功能正常
ALM-12081 ommdba用户过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户是否过期,如果用户过期,则发送告警。 当系统中ommdba用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12081 重要 是 告警参数
时间,Tez构建在YARN之上,能够不需要做任何改动地运行MR任务。 商用 Tez简介 4 MRS支持Presto HA能力 MRS支持为大规格的集群默认安装Presto多实例,即一个Core/Task节点上安装多个Worker实例,分别为Worker1,Worker2,Worker3…
是使用直连模式从PostgreSQL导入数据时,可以将一个到达设定大小的文件分为几个独立的文件。 -inline-lob-limit 设定大对象数据类型的最大值。 -m或-num-mappers 启动n个map来并行导入数据,默认是4个,该值请勿高于集群的最大Map数。 -query,-e<statement>
TIMEOUT Spark默认配置能很好的处理中等数据规模的计算任务,但一旦数据量过大,会经常出现超时导致任务失败的场景。在大数据量场景下,需调大Spark中的超时参数。 表23 参数说明 参数 描述 默认值 spark.files.fetchTimeout 获取通过驱动程序的SparkContext
MRS安全增强 MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。
C4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec.compress.output=true; set
求,从而出现上面的问题。 Executor注册shuffle service的超时时间是5秒,最多重试3次,该参数目前不可配。 建议适当调大task retry次数和Executor失败次数。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark
Sqoop1.4.7适配MRS 3.x集群 Sqoop是专为Apache Hadoop和结构化数据库(如关系型数据库)设计的高效传输大量数据的工具。客户需要在MRS中使用sqoop进行数据迁移,MRS旧版本中未自带Sqoop,客户可参考此文档自行安装使用。MRS 3.1.0及之后