检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调整Hudi数据源性能 本章节适用于MRS 3.3.1及以后版本。 HetuEngine具备高速访问Hive、Hudi等数据源的能力。对于Hudi数据源调优,可以分为对Hudi表本身和对集群环境的调优。 Hudi表调优 可参考如下建议优化表和数据设计: 建表时尽量按照频繁使用的过滤条件字段进行分区。
HDFS日志介绍 日志描述 日志存储路径:HDFS相关日志的默认存储路径为“/var/log/Bigdata/hdfs/角色名”。 NameNode:“/var/log/Bigdata/hdfs/nn”(运行日志),“/var/log/Bigdata/audit/hdfs/nn”(审计日志)。
配置Spark通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在Spark客户端创建Location为OBS路径的表。 Spark对接OBS MRS集群支持Spark服务在创建表时指定Location为OBS文件系统路径,也支持基于Hive
HDFS日志介绍 日志描述 日志存储路径:HDFS相关日志的默认存储路径为“/var/log/Bigdata/hdfs/角色名”。 NameNode:“/var/log/Bigdata/hdfs/nn”(运行日志),“/var/log/Bigdata/audit/hdfs/nn”(审计日志)。
配置Hive表、列或数据库的用户权限 操作场景 使用Hive表或者数据库时,如果用户访问别人创建的表或数据库,需要授予对应的权限。为了实现更严格权限控制,Hive也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager角色管理功能在表授权、列授权和数据库授权三个场景下的操作。
Spark同步HBase数据到CarbonData的Java示例程序。 本示例工程中,应用将数据实时写入HBase,用于点查业务。数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。 SparkHbasetoHbaseJavaExample Spark从HBase
Spark同步HBase数据到CarbonData的Java示例程序。 本示例工程中,应用将数据实时写入HBase,用于点查业务。数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。 SparkHbasetoHbaseJavaExample Spark从HBase
配置HetuEngine通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在HetuEngine客户端创建指定Location为OBS文件系统路径的表,也支持基于Hive Metastore方式对接OBS。 HetuEngine对接OBS
MRS多租户使用流程 多租户使用说明 租户主要用于资源控制、业务隔离的场景。在实际业务中,用户需要先明确使用集群资源的业务场景,规划租户。 多租户使用包含三类操作:创建租户、管理租户和管理资源。各操作的具体动作如表1所示。 表1 使用租户的各种操作 操作 具体动作 说明 创建租户
配置MRS集群用户私有属性 admin用户或绑定Manager_administrator角色的管理员用户,可以在Manager配置私有属性功能开关,用于支持用户(集群中所有业务用户)设置或取消自己的私有(Independent)属性。 开启私有属性开关后,需要业务用户登录后设置
通过Hue执行HetuEngine SQL 操作场景 用户需要使用图形化界面在集群中执行HetuEngine语句时,可以通过Hue完成任务。 本章节适用于MRS 3.3.0及之后版本。 前提条件 需要MRS集群已安装HetuEngine组件并添加HSFabric实例。HSFabr
配置AM自动调整分配内存 配置场景 启动该配置的过程中,ApplicationMaster在创建container时,分配的内存会根据任务总数的浮动自动调整,资源利用更加灵活,提高了客户端应用运行的容错性。 配置描述 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称
Hive应用开发简介 Hive介绍 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
配置Hive表、列或数据库的用户权限 操作场景 使用Hive表或者数据库时,如果用户访问别人创建的表或数据库,需要授予对应的权限。为了实现更严格权限控制,Hive也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager角色管理功能在表授权、列授权和数据库授权三个场景下的操作。
说明: 分区列必须有索引,如果没有索引,请不要指定分区列,指定没有索引的分区列会导致数据库服务器磁盘I/O繁忙,影响其他业务访问数据库,并且导入时间长。 在有索引的多个字段中,选择字段值最离散的字段作为分区列,不离散的分区列会导致多个导入MR任务负载不均衡。 分区列的排序规则必须支持大
fprintf(stderr, "hdfsChmod- SUCCESS!, Chmod success for %s\n",file); 设置文件时间。 struct timeval now; gettimeofday(&now, NULL); if (hdfsUtime(fs, file
fprintf(stderr, "hdfsChmod- SUCCESS!, Chmod success for %s\n",file); 设置文件时间。 struct timeval now; gettimeofday(&now, NULL); if (hdfsUtime(fs, file
fprintf(stderr, "hdfsChmod- SUCCESS!, Chmod success for %s\n",file); 设置文件时间。 struct timeval now; gettimeofday(&now, NULL); if (hdfsUtime(fs, file
或lastmodified 增量导入参数。 append:追加,比如对大于last-value指定的值之后的记录进行追加导入。 lastmodified:最后的修改时间,追加last-value指定的日期之后的记录。 -last-value (value) 增量导入参数,指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一值。
配置AM自动调整分配内存 本章节适用于MRS 3.x及后续版本集群。 配置场景 启动该配置的过程中,ApplicationMaster在创建Container时,分配的内存会根据任务总数的浮动自动调整,资源利用更加灵活,提高了客户端应用运行的容错性。 配置描述 参数入口: 参考修