检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CarbonData基本原理 CarbonData是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成的高性能分析引擎。
如何配置HBase文件存储 使用条件 集群版本小于MRS 3.x。 使用场景 HBase文件存储模块(HBase FileStream,简称HFS)是HBase的独立模块,它作为对HBase与HDFS接口的封装,应用在MRS的上层应用,为上层应用提供文件的存储、读取、删除等功能。
准备本地应用开发环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,推荐Windows 7以上版本。 运行环境:Windows或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。
MRS 1.7.1.6补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.7.1.6 发布时间 2019-01-24 解决的问题 MRS 1.7.1.6修复问题列表: MRS Manager MRS服务启动、停止及重启支持显示依赖关系,并自定义重启哪些服务。 MRS
快速开发HDFS应用 HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用。 HDFS适用于如下场景: 处理海量数据(TB或PB级别以上) 需要很高的吞吐量
Loader日志介绍 日志描述 日志存储路径:Loader相关日志的默认存储路径为“/var/log/Bigdata/loader/日志分类”。 runlog:“/var/log/Bigdata/loader/runlog”(运行日志) scriptlog:“/var/log/B
projects 编译运行程序。 放置好配置文件,并修改代码匹配登录用户后,文件列表如下图所示。 图2 doris-example待编译目录列表 编译方式有以下两种: 方法一 选择“Maven > 样例工程名称 > Lifecycle > clean”,双击“clean”运行maven的clean命令。
使用JDBC提交数据分析任务 功能简介 本章节介绍如何使用JDBC样例程序完成数据分析任务。 样例代码 使用Hive JDBC接口提交数据分析任务,该样例程序在“hive-examples/hive-jdbc-example”的“JDBCExample.java”中,实现该功能的模块如下:
Loader日志介绍 日志描述 日志存储路径:Loader相关日志的默认存储路径为“/var/log/Bigdata/loader/日志分类”。 runlog:“/var/log/Bigdata/loader/runlog”(运行日志) scriptlog:“/var/log/B
MRS 2.1.0.7补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.7 发布时间 2020-07-15 解决的问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件
projects 编译运行程序。 放置好配置文件,并修改代码匹配登录用户后,文件列表如下图所示。 图2 doris-example待编译目录列表 编译方式有以下两种: 方法一 选择“Maven > 样例工程名称 > Lifecycle > clean”,双击“clean”运行maven的clean命令。
Flink日志介绍 日志描述 日志存储路径: Flink作业运行日志:“${BIGDATA_DATA_HOME}/hadoop/data${i}/nm/containerlogs/application_${appid}/container_{$contid}”。 运行中的任务日
的部分)。每个SQL语句的信息如下表3。 表3 SQL的常用信息 参数 描述 id SQL语句的ID status SQL语句的执行状态,有RUNNING、COMPLETED、FAILED三种 runningJobs SQL语句产生的job中,正在执行的job列表 successedJobs
查看MRS集群组件运行状态 MRS集群创建后,用户可在MRS管理控制台或者集群Manager界面查看集群内各服务组件以及组件角色实例的运行状态,以判断组件是否运行正常。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户
Flink日志介绍 日志描述 日志存储路径: Flink作业运行日志:“${BIGDATA_DATA_HOME}/hadoop/data${i}/nm/containerlogs/application_${appid}/container_{$contid}”。 运行中的任务日
准备Hive应用开发和运行环境 准备开发环境 Hive组件可以使用JDBC/Python/Python3接口进行应用开发,要准备的开发和运行环境分别如下表所示。 表1 JDBC开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。 运行环境:Windows系统或Linux系统。
调测Kafka Producer样例程序 前提条件 如需在Windows调测程序,需要配置Windows通过EIP访问集群Kafka,详情请参见配置Windows通过EIP访问安全模式集群Kafka。 如需在Linux调测程序,需要确保当前用户对“src/main/resourc
快速开发HBase应用 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。
MRS 2.1.0.8补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.8 发布时间 2020-08-04 解决的问题 MRS 2.1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,ECS接口限流问题 MRS Manager支持多人登录
Spark Core数据序列化 操作场景 Spark支持两种方式的序列化 : Java原生序列化JavaSerializer Kryo序列化KryoSerializer 序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式的情况下,KryoSerializer的性