检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Doris对接Hive数据源 通过连接Hive Metastore,或者兼容Hive Metatore的元数据服务,Doris可以自动获取Hive的库表信息,并进行数据查询。 除Hive外,很多其他系统也会使用Hive Metastore存储元数据。通过Hive Catalo
开发HBase应用 HBase数据读写样例程序 HBase全局二级索引样例程序 HBase Rest接口调用样例程序 HBase ThriftServer连接样例程序 HBase访问多个ZooKeeper样例程序 父主题: HBase开发指南(安全模式)
OpenTSDB HTTP API接口介绍 OpenTSDB提供了基于HTTP或HTTPS的应用程序接口。请求方式是通过向资源对应的路径发送标准的HTTP请求,请求包含GET、POST方法。它的接口与开源OpenTSDB保持一致,请参见https://opentsdb.net/d
Sqoop如何连接MySQL 用户问题 Sqoop如何连接MySQL数据库。 处理步骤 在集群上安装客户端,查看客户端“sqoop/lib”目录下是否有MySQL驱动包。 在客户端目录下加载环境变量。 source bigdata_env 执行Kerberos用户认证。 如果集群
手动备份Doris数据 Doris支持将当前数据以文件的形式,通过Broker备份到远端存储系统中,可实现将Doris数据定期进行快照备份及数据迁移操作。 该章节操作仅适用于MRS 3.3.1之前版本。 备份恢复相关的操作目前只允许拥有ADMIN权限的用户执行。 一个DataBa
Doris冷热分离介绍 在数据分析的实际应用场景中,冷热数据经常有不同的查询频次及响应速度要求。例如,在行为分析场景中,需支持近期流量数据的高频查询和高时效性,历史数据的访问频次很低,但需长时间备份以保证后续的审计和回溯工作,且查询需求也会随着时间推移锐减,如果将所有数据存储在本地,将造成大量的资源浪费。
IoTDB基本原理 IoTDB(物联网数据库)是一体化收集、存储、管理与分析物联网时序数据的软件系统。 Apache IoTDB采用轻量式架构,具有高性能和丰富的功能。 IoTDB从存储上对时间序列进行排序,索引和chunk块存储,大大的提升时序数据的查询性能。通过Raft协议,
开发Spark应用 Spark Core样例程序 Spark SQL样例程序 通过JDBC访问Spark SQL样例程序 Spark读取HBase表样例程序 Spark从HBase读取数据再写入HBase样例程序 Spark从Hive读取数据再写入HBase样例程序 Spark
CarbonData常见问题 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出? 如何避免对历史数据进行minor compaction? 如何在CarbonData数据加载时修改默认的组名? 为什么INSERT INTO CARBON TABLE失败? 为什么含转义字符的输入数据记录到Bad
导入并配置ClickHouse样例工程 背景信息 获取ClickHouse开发样例工程,将工程导入到IntelliJ IDEA开始样例学习。 前提条件 确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。集群的时间可通过FusionInsight Manager页面右下角查看。
Flume业务模型配置说明 业务模型配置指导 本任务旨在提供Flume常用模块的性能差异,用于指导用户进行合理的Flume业务配置,避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。 本任务只针对于单通道的场景进行比较说明。 Flume业务配置及模
Hive应用开发简介 Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
Hive开源增强特性 Hive开源增强特性:支持HDFS Colocation HDFS Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存储节点上。 Hive支持HD
配置Yarn数据访问通道协议 配置场景 服务端配置了web访问为https通道,如果客户端没有配置,默认使用http访问,客户端和服务端的配置不同,就会导致访问结果显示乱码。在客户端和服务端配置相同的“yarn.http.policy”参数,可以防止客户端访问结果显示乱码。 操作步骤
配置Yarn数据访问通道协议 配置场景 服务端配置了web访问为https通道,如果客户端没有配置,默认使用http访问,客户端和服务端的配置不同,就会导致访问结果显示乱码。在客户端和服务端配置相同的“yarn.http.policy”参数,可以防止客户端访问结果显示乱码。 操作步骤
配置MRS集群审计日志转储 Manager的审计日志默认保存在数据库中,如果长期保留可能引起数据目录的磁盘空间不足问题,管理员如果需要将审计日志保存到其他归档服务器,可以在FusionInsight Manager设置转储参数及时自动转储,便于管理审计日志信息。 若用户未配置审计
Spark Structured Streaming样例程序开发思路 场景说明 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 数据规划 StructuredStreaming样例工
Spark Structured Streaming样例程序开发思路 场景说明 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 数据规划 StructuredStreaming样例工
创建Doris权限角色 Doris权限管理系统实现了行级别细粒度的权限控制,和基于角色的权限访问控制。 仅MRS 3.3.0及之后版本开启Kerberos认证的集群支持通过FusionInsight Manager创建角色进行赋权,如果集群为MRS 3.3.0之前的版本,无论是否
Spark Structured Streaming状态操作样例程序开发思路 场景说明 假设需要跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp; 同时输出本批次被更新状态的session。 数据规划 在kafka中生成模拟数据(需要有Kafka权限用户)。