检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。 SQL防御功能仅MRS 3.3.0及之后版本集群支持。
步骤2:准备应用运行环境 更多 技术专题 技术、观点、课程专题呈现 深入解密MRS技术 从MRS介绍、特性及实战维度,帮助您了解和使用MRS 华为云大数据技术解密 华为云大数据技术私享会资料下载 华为云EI企业智能 华为云EI基于AI和大数据技术,通过云服务的方式提供开放可信的平台
表1 参数说明 参数 描述 默认值 mapreduce.fileoutputcommitter.algorithm.version 用于指定Job的最终输出文件提交的算法版本,取值为“1”或“2”。 说明: 版本2为建议的优化算法版本。
Hive常用配置参数 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。 本章节主要介绍Hive常用参数。
表1 参数说明 参数 描述 默认值 mapreduce.fileoutputcommitter.algorithm.version 用于指定Job的最终输出文件提交的算法版本,取值为“1”或“2”。 说明: 版本2为建议的优化算法版本。
当仅填写“subnet_name”一个参数且VPC下存在同名子网时,创建集群时以VPC平台第一个名称的子网为准。推荐使用“subnet_id”。 取值范围: 不涉及 默认取值: 不涉及 security_groups_id 否 String 参数解释: 集群安全组的ID。
Kafka与其他组件的关系 Kafka作为一个消息发布-订阅系统,为整个大数据平台多个子系统之间数据的传递提供了高速数据流转方式。 Kafka可以实时接受来自外部的消息,并提供给在线以及离线业务进行处理。
说明: 缺省值为“3des”,表示采用3DES算法进行加密。此处的值还可以设置为“rc4”,避免出现安全隐患,不推荐设置为该值。
下图清晰地描述了MapReduce算法的整个流程。 图12 算法流程 概念上shuffle就是一个沟通数据连接的桥梁,实际上shuffle这一部分是如何实现的呢,下面就以Spark为例讲解shuffle在Spark中的实现。
目前CBO主要的优化点是Join算法选择。
同一时间集群中只有一个acting master(leader master),如果leader master故障,一个新的master会通过Raft算法选举出来。
/__spark_conf__/__hadoop_conf__/fairscheduler.xml spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。
选择“更多 > 下载客户端 > 仅配置文件”,选择平台类型后单击“确定”。 用户凭据获取方法: 登录FusionInsight Manager,单击“系统”。 在对应用户的“操作”列,选择“更多 > 下载认证凭据”,选择集群后单击“确定”。
选择“更多 > 下载客户端 > 仅配置文件”,选择平台类型后单击“确定”。 用户凭据获取方法: 登录FusionInsight Manager,单击“系统”。 在对应用户的“操作”列,选择“更多 > 下载认证凭据”,选择集群后单击“确定”。
256 spark.network.crypto.keyFactoryAlgorithm 生成加密密钥时使用的算法。 PBKDF2WithHmacSHA1 spark.io.encryption.enabled 启用本地磁盘I/O加密。
sha2(string, integer) → string 安全散列算法2, 是一种密码散列函数算法标准,其输出长度可以取224位,256位, 384位、512位,分别对应SHA-224、SHA-256、SHA-384、SHA512 sha256(binary) → varbinary
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 使用ZSTD_JNI压缩算法压缩Hive ORC表 配置Hive列加密功能 父主题: 使用Hive
注意事项 注[1] 可以设置列族的压缩方式,代码片段如下: //设置编码算法,HBase提供了DIFF,FAST_DIFF,PREFIX三种编码算法。
注意事项 注[1] 可以设置列族的压缩方式,代码片段如下: //设置编码算法,HBase提供了DIFF,FAST_DIFF,PREFIX三种编码算法。
/__spark_conf__/__hadoop_conf__/fairscheduler.xml spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。