检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
指定表的格式为RCFile(推荐使用)或SequenceFile,加密算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
使用HDFS HDFS文件系统目录简介 HDFS用户权限管理 HDFS客户端使用实践 快速使用Hadoop 配置HDFS文件回收站机制 配置HDFS DataNode数据均衡 配置HDFS DiskBalancer磁盘均衡 配置HDFS Mover命令迁移数据 配置HDFS文件目录标签策略(NodeLabel)
d > Scala”。 图21 选择Scala语言 当IDEA可以识别出Scala SDK时,在设置界面,选择编译的依赖jar包,然后单击“OK”应用设置 图22 Add Scala Support 当系统无法识别出Scala SDK时,需要自行创建。 单击“Create...”。
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFi
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
MRS集群客户端如何通过AK/SK信息对接OBS MRS 1.9.2及之后的版本支持使用obs://的方式对接OBS服务,当前主要支持的组件为Hadoop、Hive、Spark、Presto、Flink。其中HBase组件使用obs://的方式对接OBS服务暂不支持。 该章节主要
通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错 用户问题 利用Hue的Sqoop操作把HBase中的数据导入HDFS时报错: Caused by: java.lang.ClassNotFoundException: org.apache.htrace.Trace
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
使用HDFS 修改RPC端口后HDFS NameNode实例都变为备状态 通过公网IP连接使用HDFS客户端报错 使用Python远程连接HDFS的端口失败 HDFS容量达到100%导致上层服务HBase、Spark等不可用 启动HDFS和Yarn服务报错“Permission denied”
使用Oozie客户端提交Spark2x任务 操作场景 该任务指导用户在使用Oozie客户端提交Spark2x任务。 请下载使用最新版本的客户端。 前提条件 Spark2x和Oozie组件安装完成且运行正常,客户端安装成功。 如果当前客户端为旧版本,需要重新下载和安装客户端。 已创
创建HDFS多线程任务 功能简介 建立多线程任务,同时启动多个实例执行文件操作。 代码样例 如下是删除文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 // 业务示例2:多线程 final int THREAD_COUNT
路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /user/test 文件格式 文件导出类型: “TEXT_FILE”:导入文本文件并保存为文本文件。 “SEQUENCE_FILE”:导入文本文件并保存在“sequence file”文件格式。 “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件。
der算子配置项中使用宏定义。 /user/test 文件格式 文件导出类型: “TEXT_FILE”:导入文本文件并保存为文本文件。 “SEQUENCE_FILE”:导入文本文件并保存在“sequence file”文件格式。 “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件。
字段的参数表格添加相应配置信息,单击“导出”。 选择导出的类型。 所有 所有的字段信息将以json文件格式导出保存到本地。 指导字段 在字段列表上勾选需要导出的字段以json文件格式导出保存到本地。 单击“确定”,完成导出操作。 父主题: Loader算子帮助
查看MRS集群日志 MRS集群日志概述 查看MRS云服务操作日志 查看历史MRS集群信息 查看MRS集群审计日志 查看MRS组件角色实例日志 在线检索MRS集群日志 下载MRS集群日志 采集MRS集群服务堆栈信息 配置MRS组件默认日志级别与归档文件大小 配置MRS集群审计日志本地备份数
指定表的格式为RCFile(推荐使用)或SequenceFile,加密算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec
指定表的格式为RCFile(推荐使用)或SequenceFile,加密算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec
配置Flume加密传输 操作场景 该操作指导安装工程师在集群安装完成后,设置Flume服务(Flume角色)的服务端和客户端参数,使其可以正常工作。 本章节适用于MRS 3.x及之后版本。 前提条件 已成功安装集群及Flume服务。 操作步骤 分别生成Flume角色服务端和客户端的证书和信任列表。