-
聚合算法优化 - MapReduce服务 MRS
聚合算法优化 操作场景 在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。 操作步骤 要启动
-
聚合算法优化 - MapReduce服务 MRS
聚合算法优化 操作场景 在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。 操作步骤 要启动
-
Kudu支持的压缩算法有哪些? - MapReduce服务 MRS
Kudu支持的压缩算法有哪些? 问:Kudu支持的压缩算法有哪些? 答:Kudu目前支持的压缩算法有snappy、lz4和zlib,默认是lz4。 父主题: 大数据业务开发
-
使用LZC压缩算法存储HDFS文件 - MapReduce服务 MRS
ZCodec LZC压缩格式不支持FSImage和SequenceFile压缩。 当前HDFS提供了多种压缩算法,包括Gzip、LZ4、Snappy、Bzip2等。这几种压缩算法的压缩比和解压速度可参考如下: 压缩比排序:Bzip2>Gzip>LZ4>Snappy 解压速度排序:LZ4>Snappy>Gzip>Bzip2
-
使用LZC压缩算法存储HDFS文件 - MapReduce服务 MRS
ZCodec LZC压缩格式不支持FSImage和SequenceFile压缩。 当前HDFS提供了多种压缩算法,包括Gzip、LZ4、Snappy、Bzip2等。这几种压缩算法的压缩比和解压速度可参考如下: 压缩比排序:Bzip2>Gzip>LZ4>Snappy 解压速度排序:LZ4>Snappy>Gzip>Bzip2
-
使用ZSTD - MapReduce服务 MRS
使用ZSTD_JNI压缩算法压缩Hive ORC表 操作场景 ZSTD_JNI是ZSTD压缩算法的native实现,相较于ZSTD而言,压缩读写效率和压缩率更优些,并允许用户设置压缩级别,以及对特定格式的数据列指定压缩方式。 目前仅ORC格式的表支持ZSTD_JNI压缩方式,而普
-
导入并配置Flink样例工程 - MapReduce服务 MRS
导入并配置Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程 操作步骤
-
Spark应用开发简介 - MapReduce服务 MRS
及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程 概念上shuffle就是一个沟通数据连接的桥梁,实际上shuffle这一部分是如何实现的呢,下面就以Spark为例讲一下shuffle在Spark中的实现。
-
HyperLogLog函数 - MapReduce服务 MRS
og数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个1的位置,来计算元素数量。通常分为稀疏存储结构和密集存储结构两种。hl
-
配置Hive列加密功能 - MapReduce服务 MRS
密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列加密。列加密只支持存储在HDFS上的TextFile和SequenceFile文件格式的表。Hive列加密不支持视图以及Hive over HBase场景。 Hive列加密机制目前支持的加密算法有两种,在建表时指定:
-
配置Hive列加密功能 - MapReduce服务 MRS
密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列加密。列加密只支持存储在HDFS上的TextFile和SequenceFile文件格式的表。Hive列加密不支持视图以及Hive over HBase场景。 Hive列加密机制目前支持的加密算法有两种,在建表时指定:
-
数据保护技术 - MapReduce服务 MRS
通过数据校验,保证数据在存储、传输过程中的数据完整性。 MRS的用户数据保存在HDFS中,HDFS默认采用CRC32C算法校验数据的正确性,同时也支持CRC32校验算法,CRC32C校验速度快于CRC32。HDFS的DataNode节点负责存储校验数据,如果发现客户端传递过来的数据有
-
Manager例行维护说明 - MapReduce服务 MRS
Manager例行维护说明 为了保证系统长期正常、稳定的运行,管理员或维护工程师需要定期对表1所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。 表1 项目一览表 例行维护周期 任务场景 例行维护内容 每天 检查集群服务状态
-
Hive支持ZSTD压缩格式 - MapReduce服务 MRS
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFi
-
Hive支持ZSTD压缩格式 - MapReduce服务 MRS
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFi
-
Hudi SQL使用约束 - MapReduce服务 MRS
Hudi SQL使用约束 Hudi支持使用Spark SQL操作Hudi的DDL/DML的语法,使得所有用户(非工程师、分析师等)更容易访问和操作Hudi。 约束 支持在Hudi客户端执行Spark SQL操作Hudi。 支持在Spark2x的JDBCServer中执行Spark
-
导入并配置ClickHouse样例工程 - MapReduce服务 MRS
ClickHouse针对多个场景提供样例工程,帮助客户快速学习ClickHouse工程。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src”目录下的样例工程文件夹“clickhouse-examples”以及Maven相关配置。 在应用开发环境中,导入样例工程到IntelliJ
-
导入并配置ClickHouse样例工程 - MapReduce服务 MRS
ClickHouse针对多个场景提供样例工程,帮助客户快速学习ClickHouse工程。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src”目录下的样例工程文件夹“clickhouse-examples”以及Maven相关配置。 在应用开发环境中,导入样例工程到IntelliJ
-
配置HBase数据压缩格式和编码 - MapReduce服务 MRS
、DIFF、FAST_DIFF和ROW_INDEX_V1,其中NONE表示不使用编码。另外,HBase还支持使用压缩算法对HFile文件进行压缩,默认支持的压缩算法有:NONE、GZ、SNAPPY和ZSTD,其中NONE表示HFile不压缩。 这两种方式都是作用在HBase的列簇上,可以同时使用,也可以单独使用。
-
配置HBase数据压缩格式和编码 - MapReduce服务 MRS
、DIFF、FAST_DIFF和ROW_INDEX_V1,其中NONE表示不使用编码。另外,HBase还支持使用压缩算法对HFile文件进行压缩,默认支持的压缩算法有:NONE、GZ、SNAPPY和ZSTD,其中NONE表示HFile不压缩。 这两种方式都是作用在HBase的列簇上,可以同时使用,也可以单独使用。