检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce访问多组件样例程序开发思路 场景说明 该样例以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。 该样例逻辑过程如下。 以HDFS文本文件为输入数据 log1.txt:数据输入文件
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
Spark故障排除 访问Spark应用获取的restful接口信息有误 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面 HistoryServer缓存的应用被回收,导致此类应用页面访问时出错 加载空的part文件时,app无法显示在JobHistory的页面上
hdfs hadoop 0 2016-04-22 16:10 /user 创建请求上传命令,获取集群分配的可写入DataNode节点地址的信息Location。 执行如下命令访问HTTP: linux1:/opt/client # curl -i -X
create database. | com.huawei.bigdata.doris.example.JDBCExample.main(JDBCExample.java:44) 2023-08-17 23:13:13,949 | INFO | main | Database created
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致。
Spark应用开发流程介绍 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件,其应用开发流程相同。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明 阶段 说明 参考文档 了解基本概念
Spark SQL ROLLUP和CUBE使用的注意事项 问题 假设有表src(d1, d2, m),其数据如下: 1 a 1 1 b 1 2 b 2 对于语句select d1, sum(d1) from src group by d1, d2 with rollup其结果如下:
hdfs hadoop 0 2016-04-22 16:10 /user 创建请求上传命令,获取集群分配的可写入DataNode节点地址的信息Location。 执行如下命令访问HTTP: linux1:/opt/client # curl -i -X
ALTER MATERIALIZED VIEW STATUS 语法 ALTER MATERIALIZED VIEW qualifiedName SET STATUS <status> 描述 修改物化视图的状态,仅支持ENABLE和SUSPEND相互转换,以及将DISABLE状态修
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 如果任务失败,选择“重试安装”,只有当“状态”显示为“已安装”时,才能进入下一步操作。
克隆MRS集群 当新建集群与某原有集群配置相同时,可使用克隆集群功能快速创建集群。 克隆MRS集群使用限制 已删除的集群仅支持删除3个月内的集群进行克隆。 克隆包周期集群时默认不自动续费。 磁盘类型为专属分布式存储的集群不允许克隆。 克隆时仅可以修改为更高集群版本,无法克隆创建历史版本集群。
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言
HBase故障排除 HBase客户端连接服务端时,长时间无法连接成功 在HBase连续对同一个表名做删除创建操作时出现创建表异常 HBase占用网络端口,连接数过大会导致其他服务不稳定 有210000个map和10000个reduce的HBase BulkLoad任务运行失败 使
TABLESAMPLE 有BERNOULLI和SYSTEM两种采样方法。 这两种采样方法都不允许限制结果集返回的行数。 BERNOULLI 每一行都将基于指定的采样率选择到采样表中。当使用Bernoulli方法对表进行采样时,将扫描表的所有物理块并跳过某些行(基于采样百分比和运行
DROP MATERIALIZED VIEW 语法 DROP MATERIALIZED VIEW [IF EXISTS] view_name 描述 用于删除现有的物化视图。若删除的视图不存在,且指定了可选参数if exists,则不会抛出错误信息。 删除物化视图将导致删除与指定视图关联的元数据和表数据。
T-Digest函数 概述 T-digest是存储近似百分位信息的数据草图。HetuEngine中用tdigest表示这种数据结构。T-digest可以合并,在存储时可以强转为VARBINARY,检索时再由VARBINARY转换为T-digest 函数 merge(tdigest)→tdigest
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言