检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive企业级能力增强 配置Hive表不同分区分别存储至OBS和HDFS 配置Hive目录旧数据自动移除至回收站 配置Hive插入数据到不存在的目录中 配置创建Hive内部表时不能指定Location 配置用户在具有读和执行权限的目录中创建外表 配置基于HTTPS/HTTP协议的REST接口
配置MapReduce集群管理员列表 配置场景 该功能主要用于指定MapReduce集群管理员。 其中,集群管理员列表由参数“mapreduce.cluster.administrators”指定,集群管理员admin具有所有可以操作的权限。 配置描述 进入Mapreduce服务
Oozie应用开发应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
HDFS与其他组件的关系 HDFS和HBase的关系 HDFS是Apache的Hadoop项目的子项目,HBase利用Hadoop HDFS作为其文件存储系统。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。除了HBase产生的一些日志
组件类型名称,必须写为regex_filter。 regex - 用于匹配事件的正则表达式。 excludeEvents false 默认收集匹配到的Event。设置为true,则会删除匹配的Event,保留不匹配的。 配置示例(为了方便观察,此模型使用了netcat tcp作为Source源,logg
配置MapReduce集群管理员列表 配置场景 该功能主要用于指定MapReduce集群管理员。 其中,集群管理员列表由参数“mapreduce.cluster.administrators”指定,集群管理员admin具有所有可以操作的权限。 配置描述 进入Mapreduce服务
建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败 问题 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败以及show partitions table结果编码不对。 执行desc formatted test_hiv
Hive应用开发简介 Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
使用前必读 欢迎使用MapReduce服务(MapReduce Service,MRS)。MRS服务提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。 您可以使用本文档提供API对MRS服务进行相关操作,如
MRS集群保留JDK说明 MRS集群是租户完全可控的大数据应用开发平台,用户基于平台开发业务后,将业务程序部署到大数据平台运行。由于需要具备开发调测能力,因此要在MRS集群中保留JDK。 此外,MRS集群功能中如下关键特性也强依赖JDK。 HBase BulkLoad HBase
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 SparkSQL UDF功能的权限控制机制
SHOW_LOG_FILE 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 查看log文件的meta和record信息。 命令格式 查看meta: call show_logfile_metadata(table => '[table]', log_file_path_pattern
HBase与其他组件的关系 HBase和HDFS的关系 HDFS是Apache的Hadoop项目的子项目,HBase利用Hadoop HDFS作为其文件存储系统。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。除了HBase产生的一些日
配置Doris对接Hudi数据源 在MRS集群元数据存储在Hive MetaStore的场景中,Doris 2.0.13版本支持通过Catalog的方式对接Hudi 0.15.0版本数据源,支持对接Hudi所有的数据字段类型。 Doris支持查询的Hudi表类型 Doris支持的Hudi表类型和对应的查询类型如下:
Hive应用开发简介 Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
配置Spark2x Web UI ACL 配置场景 当Spark2x Web UI中有一些不允许其他用户看到的数据时,用户可能想对UI进行安全防护。用户一旦登录,Spark2x可以比较与这个用户相对应的视图ACLs来确认是否授权用户访问 UI。 Spark2x存在两种类型的Web
优化HDFS NameNode RPC的服务质量 配置场景 本章节适用于MRS 3.x及后续版本。 数个成品Hadoop集群由于NameNode超负荷运行并失去响应而发生故障。 这种阻塞现象是由于Hadoop的初始设计造成的。在Hadoop中,NameNode作为单独的机器,在其
配置Spark Web UI ACL 配置场景 当Spark2x Web UI中有一些不允许其他用户看到的数据时,用户可能想对UI进行安全防护。用户一旦登录,Spark2x 可以比较与这个用户相对应的视图ACLs来确认是否授权用户访问 UI。 Spark2x存在两种类型的Web UI,一种为运行中任务的Web
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 SparkSQL UDF功能的权限控制机制
优化HDFS NameNode RPC的服务质量 配置场景 本章节适用于MRS 3.x及后续版本。 数个成品Hadoop集群由于NameNode超负荷运行并失去响应而发生故障。 这种阻塞现象是由于Hadoop的初始设计造成的。在Hadoop中,NameNode作为单独的机器,在其