检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,并且文件中的数据尽可能的压缩来降低存储空间的消耗。矢量化读取ORC格式的数据能够大幅提升ORC数据读取性能。在Spark2
如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,并且文件中的数据尽可能的压缩来降低存储空间的消耗。矢量化读取ORC格式的数据能够大幅提升ORC数据读取性能。在Spark2
如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
执行balance失败报错“Source and target differ in block-size” 问题背景与现象 执行distcp跨集群拷贝文件时,出现部分文件拷贝失败“ Source and target differ in block-size. Use -pb to
shold后才会进行分割,这种分割被称为单点分割。 为了实现根据用户的需要动态分割Region以获得更好的性能这一目标,开发了多点分割又称动态分割,即把空的Region预先分割成多个Region。通过预先分割,避免了因为Region空间不足出现Region分割导致性能下降的现象。
的“换行符”配置无效。 字段分割符 源数据的每个字段分割标识字符。 说明: ftp或sftp作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效 编码类型 源数据的文本编码类型。只对文本类型文件有效。 文件分割方式 支持以下两种: Fil
MRS多租户简介 多租户概述 背景介绍: 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。
BINARY_FILE时,高级属性中的“换行符”配置无效。 字段分割符 最终数据的每个字段分割标识字符。 说明: ftp或sftp作为目的连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效 编码类型 最终数据的文本编码类型。只对文本类型文件有效。
平衡。 分割和Executors的关系 如果分割数小于等于Executor数乘以Executor核数,那么任务将以并行方式运行。否则,某些任务只有在其他任务完成之后才能开始。因此,要确保Executor数乘以Executor核数大于等于分割数。同时,还要确保有足够的分割数,这样一
平衡。 分割和Executors的关系 如果分割数小于等于Executor数乘以Executor核数,那么任务将以并行方式运行。否则,某些任务只有在其他任务完成之后才能开始。因此,要确保Executor数乘以Executor核数大于等于分割数。同时,还要确保有足够的分割数,这样一
Computation):支持迭代计算,有效应对多步的数据处理逻辑。 数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Ana
据成为脏数据。 配置转换字段类型,与原始数据实际类型不同,全部数据成为脏数据。例如将字符串类型转换为数值类型。 配置字段分割长度,大于原字段值的长度,则数据分割失败,当前行成为脏数据 表输入 原始数据包含NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。
据成为脏数据。 配置转换字段类型,与原始数据实际类型不同,全部数据成为脏数据。例如将字符串类型转换为数值类型。 配置字段分割长度,大于原字段值的长度,则数据分割失败,当前行成为脏数据 表输入 原始数据包含NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。
HetuEngine物化视图概述 HetuEngine物化视图功能适用于MRS 3.2.0及以后版本。 HetuEngine物化视图背景介绍 HetuEngine具备物化视图能力。在实际运用中,将高频访问的SQL查询和有高耗时的算子(连接, 聚合等算子)的SQL通过建立物化视图进
启用/禁用HBase二级索引 查询HBase二级索引列表 使用HBase二级索引读取数据 删除HBase二级索引 HBase Region的多点分割 HBase ACL安全配置 父主题: HBase开发指南
der算子配置项中使用宏定义。 /opt/tempfile;/opt 文件分割方式 选择按文件或大小分割源文件,作为数据导入的MapReduce任务中各个map的输入文件。 选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同
据文件的后缀选择对应的解压方法,对文件进行解压。 TEXT_FILE 文件分割方式 选择按文件或大小分割源文件,作为数据导出的MapReduce任务中各个map的输入文件。 选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同
项简单特定的任务。Storm的目标是提供对大数据流的实时处理,可以可靠地处理无限的数据流。 Storm有很多适用的场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支持容错,可确保数据得到处理,易于构建和操控。 Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高
HDFS的运行环境即HDFS客户端,请根据指导完成客户端的安装和配置。 准备HDFS应用开发和运行环境 准备工程 HDFS提供了不同场景下的样例程序,可以导入样例工程进行程序学习。 导入并配置HDFS样例工程 根据场景开发工程 提供样例工程,帮助用户快速了解HDFS各部件的编程接口。 开发HDFS应用 编译并运行程序