检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用多级agent串联从本地采集静态日志保存到HDFS 操作场景 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 本章节适用于MRS 3.x及之后版本。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已
使用多级agent串联从本地采集静态日志保存到HDFS 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。
使用ClickHouse客户端 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 前提条件 已安装客户端,例如安装目录为“/opt/client”。以下操作的客户端目
Flink Join样例程序(Java) 功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.jar
导入导出Hive表/分区数据 操作场景 在大数据应用场景中,往往存在将Hive中的数据表迁移到另一个集群上,使用Hive的导入导出命令可以实现表级别数据迁移,即可使用Export命令将源集群的Hive表导出到目标集群的HDFS中,再在目标集群使用Import命令将导出的数据导入到相应的Hive表中。
LOAD DATA 命令功能 LOAD DATA命令以CarbonData特定的数据存储类型加载原始的用户数据,这样,CarbonData可以在查询数据时提供良好的性能。 仅支持加载位于HDFS上的原始数据。 命令格式 LOAD DATA INPATH 'folder_path'
HBase本地二级索引介绍 场景介绍 HBase是基于Key-Value的分布式存储数据库,基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据,或者扫描指定rowkey范围内的数据,HBase可以快速查找到需要读取的数据,从而提高效率。在大多数实
HBase本地二级索引介绍 场景介绍 HBase是基于Key-Value的分布式存储数据库,基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据,或者扫描指定rowkey范围内的数据,HBase可以快速查找到需要读取的数据,从而提高效率。在大多数实
使用MRS客户端操作OpenTSDB指标数据 用户可以根据业务需要,在MRS集群的客户端中进行交互式操作。启用Kerberos认证的集群,需要操作的用户属于“opentsdb,hbase,opentsdbgroup和supergroup”组且拥有HBase权限。 前提条件 获取用
准备MRS应用开发用户 操作场景 开发用户用于运行样例工程。进行不同服务的组件开发时,需要赋予不同的用户权限。 操作步骤 登录FusionInsight Manager。 在FusionInsight Manager界面选择“系统 > 权限 > 角色 > 添加角色”。 填写角色的
快速开发Hive JDBC应用 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
使用命令行运行Loader作业 操作场景 一般情况下,用户可以手工在Loader界面管理数据导入导出作业。当用户需要通过shell脚本来更新与运行Loader作业时,必须对已安装的Loader客户端进行配置。 Loader不兼容旧版本客户端,如果重新安装集群或Loader服务,请
HDFS应用开发规则 HDFS NameNode元数据存储路径 NameNode元数据信息的默认存储路径为“${BIGDATA_DATA_HOME}/namenode/data”,该参数用于确定HDFS文件系统的元数据信息的保存路径。 HDFS需要开启NameNode镜像备份 NameNode的镜像备份参数为“fs
LOAD DATA 命令功能 LOAD DATA命令以CarbonData特定的数据存储类型加载原始的用户数据,这样,CarbonData可以在查询数据时提供良好的性能。 仅支持加载位于HDFS上的原始数据。 命令格式 LOAD DATA INPATH 'folder_path'
Flink Job Pipeline增强 通常情况下,开发者会将与某一方面业务相关的逻辑代码放在一个比较大的Jar包中,这种Jar包称为Fat Jar。 Fat Jar具有以下缺点: 随着业务逻辑越来越复杂,Jar包的大小也不断增加。 协调难度增大,所有的业务开发人员都在同一套业
HBase开源增强特性 HBase开源增强特性:HIndex HBase是一个Key-Value类型的分布式存储数据库。每张表的数据按照RowKey的字典顺序排序,因此,如果按照某个指定的RowKey去查询数据,或者指定某一个RowKey范围去扫描数据时,HBase可以快速定位到
使用客户端运行Loader作业 操作场景 一般情况下,用户可以手工在Loader界面管理数据导入导出作业。当用户需要通过shell脚本来更新与运行Loader作业时,必须对已安装的Loader客户端进行配置。 Loader不兼容旧版本客户端,如果重新安装集群或Loader服务,请
数组函数和运算符 下标操作符:[] 描述:下标操作符用于访问数组中的元素,并从1开始建立索引。 select myarr[5] from (values array [1,4,6,78,8,9],array[2,4,6,8,10,12]) as t(myarr); _col0
使用Jupyter Notebook对接MRS Spark 应用场景 在MRS服务中可以配合Jupyter Notebook使用PySpark,能够提高机器学习、数据探索和ETL应用开发效率。 本实践指导用户如何在MRS集群中配置Jupyter Notebook来使用Pyspark。
准备MRS应用开发用户 操作场景 开发用户用于运行样例工程。进行不同服务的组件开发时,需要赋予不同的用户权限。 操作步骤 登录FusionInsight Manager。 在FusionInsight Manager界面选择“系统 > 权限 > 角色 > 添加角色”。 填写角色的