检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例如Oracle数据库中的“date”类型,系统会自动识别为“timestamp”类型,如果不手动处理会导致后续Hive表在查询数据时报错。 配置输出算子,输出到HDFS/OBS,结果如下: 父主题: Loader输入类算子
接口说明。 注册服务器接口 注册服务器用来保存NettySink的IP、端口以及并发度信息,以便NettySource连接使用。为用户提供以下接口: public interface RegisterServerHandler { /** * 启动注册服务器 * @param
显示用户选择字段的类型。 行键 “目的连接”为hbase-connector类型时,需要勾选作为行键的“目的字段”。 如果From是sftp/ftp/obs/hdfs等文件类型连接器,Field Mapping 样值取自文件第一行数据,需要保证第一行数据是完整的,Loader作业不会抽取没有Mapping上的列。
Yarn模式特有的特性,并且必须开启Yarn External Shuffle才能使用这个功能。在使用Spark作为一个常驻的服务时候,动态资源调度将大大的提高资源的利用率。例如JDBCServer服务,大多数时间该进程并不接受JDBC请求,因此将这段空闲时间的资源释放出来,将极大的节约集群的资源。 表5
原因:弹出的URL地址(如https://<hostname>:20026/Spark2x/JobHistory2x/xx/history/application_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建
Spark应用开发常用概念 基本概念 RDD 即弹性分布数据集(Resilient Distributed Dataset),是Spark的核心概念。指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从HDFS输入
单击“保存配置”,在弹出窗口中勾选“重新启动受影响的服务或实例。”,单击“确定”重启服务。若未勾选“重新启动受影响的服务或实例。”,请手动重启受影响的服务或实例。 界面提示“操作成功”,单击“完成”,服务成功启动。 重启集群或者集群内的角色实例,会造成对应服务的业务中断,请务必在业务空闲期或者确认上层业务影响可控后,再执行本操作。
端口说明 ranger.obs.service.rpc.address.port 26901 26901 Guardian OBS客户端对应服务的RPC侦听端口。 token.server.http-server.port 26900 26900 Guardian服务的HTTP侦听端口。
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述:http://hadoop.apache.org/docs/r2.7.2/api/index.html。 HDFS常用接口 HDFS常用的Java类有以下几个。 FileSystem:是客户端应用的核心类。常用接口参见表1。
手动配置Yarn任务优先级 操作场景 集群的资源竞争场景如下: 提交两个低优先级的应用Job 1和Job 2。 正在运行中的Job 1和Job 2有部分task处于running状态,但由于集群或队列资源容量有限,仍有部分task未得到资源而处于pending状态。 提交一个较高优先级的应用Job
手动配置Yarn任务优先级 操作场景 集群的资源竞争场景如下: 提交两个低优先级的应用Job 1和Job 2。 正在运行中的Job 1和Job 2有部分task处于running状态,但由于集群或队列资源容量有限,仍有部分task未得到资源而处于pending状态。 提交一个较高优先级的应用Job
如果不包含,将上述内容添加到配置项末尾处。 查看调测结果 通过MapReduce服务的WebUI进行查看 使用具有任务查看权限的用户登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > JobHistoryServer”进入Web界面后查看任务执行状态。
快速开发Hive HCatalog应用 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述:http://hadoop.apache.org/docs/r3.1.1/api/index.html。 HDFS常用接口 HDFS常用的Java类有以下几个: FileSystem:是客户端应用的核心类。常用接口参见表1。
8之前版本:http://mapreduceservice.obs-website.cn-north-1.myhuaweicloud.com/。 配置华为开源镜像仓 华为提供开源镜像站(网址为https://mirrors.huaweicloud.com/),各服务样例工程依赖的jar包都可在华为开源镜
通过MapReduce服务的WebUI进行查看 登录MRS Manager,单击“服务管理 > MapReduce > JobHistoryServer”进入Web界面后查看任务执行状态。 图1 JobHistory Web UI界面 通过YARN服务的WebUI进行查看 登录MRS
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述:http://hadoop.apache.org/docs/r3.1.1/api/index.html。 HDFS常用接口 HDFS常用的Java类有以下几个: FileSystem:是客户端应用的核心类。常用接口参见表1。
在Hue WebUI使用元数据浏览器 操作场景 用户需要使用图形化界面在集群中管理Hive的元数据,可以通过Hue完成任务。 Metastore管理器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 选择“Data Browsers > Metastore Tables”,进入“Metastore
使用与RDBMS中触发器类似的功能。 Client 客户端直接面向用户,可通过Java API、HBase Shell或者Web UI访问服务端,对HBase的表进行读写操作。本文中的HBase客户端特指HBase client的安装包,可参考HBase对外接口介绍。 父主题: HBase开发指南(普通模式)
如果不包含,将上述内容添加到配置项末尾处。 查看调测结果 通过MapReduce服务的WebUI进行查看 使用具有任务查看权限的用户登录FusionInsight Manager,选择“集群 >服务 > Mapreduce > JobHistoryServer”进入Web界面后查看任务执行状态。