检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark应用开发流程介绍 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件,其应用开发流程相同。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明 阶段 说明 参考文档 了解基本概念
取模转换:对已有字段取模,生成新字段。 剪切字符串:通过指定起始位置,截取已有字符串类型的字段,生成新字段。 EL操作转换:指定算法,对字段值进行运算,目前支持的算法有:md5sum、sha1sum、sha256sum和sha512sum等。 字符串大小写转换:对已有的字符串类型字段,切换大小写,生成新字段。 字
取模转换:对已有字段取模,生成新字段。 剪切字符串:通过指定起始位置,截取已有字符串类型的字段,生成新字段。 EL操作转换:指定算法,对字段值进行运算,目前支持的算法有:md5sum、sha1sum、sha256sum和sha512sum等。 字符串大小写转换:对已有的字符串类型字段,切换大小写,生成新字段。 字
MapReduce应用开发流程介绍 开发流程中各阶段的说明如图1和表1所示。 图1 MapReduce应用程序开发流程 表1 MapReduce应用开发的流程说明 阶段 说明 参考文档 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用Java语言进行开发,使用IntelliJ
MRS是否支持同时运行多个Flume任务? 如何修改FlumeClient的日志为标准输出日志? Hadoop组件jar包位置和环境变量的位置在哪里? 如何查看HBase日志? HBase表如何设置和修改数据保留期? 如何修改HDFS的副本数? 如何修改HDFS主备倒换类? DynamoDB的number在Hive表中用什么类型比较好?
例工程进行程序学习。 导入并配置Kafka样例工程 配置安全认证 如果您使用的是开启了Kerberos认证的MRS集群,需要进行安全认证。 配置Kafka应用安全认证 根据业务场景开发程序 提供了Producer和Consumer相关API的使用样例,包含了API和多线程的使用场景,帮助用户快速熟悉Kafka接口。
表1 参数说明 参数 说明 默认值 spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。 true为使用Hash算法,使用多租户模式时,该参数需配置为true。 false为使用随机连接,多主实例模式,配置为false。 true
例工程进行程序学习。 导入并配置Kafka样例工程 配置安全认证 如果您使用的是开启了Kerberos认证的MRS集群,需要进行安全认证。 配置Kafka应用安全认证 根据业务场景开发程序 提供了Producer和Consumer相关API的使用样例,包含了API和多线程的使用场景,帮助用户快速熟悉Kafka接口。
q)替代精确去重。 ClickHouse提供多种近似去重算法,通过count_distinct_implementation配置,支持将countDistinct语法转成所配置的近似算法。查询性能有数量级的提升。 近似算法的误差一般在1%以内。在数据准确度要求不高,比如趋势分析等,建议使用近似去重提升用户体验。
dfs.datanode.sync.behind.writes true 压缩调优 CarbonData结合少数轻量级压缩算法和重量级压缩算法来压缩数据。虽然这些算法可处理任何类型的数据,但如果数据经过排序,相似值在一起出现时,就会获得更好的压缩率。 CarbonData数据加载过程
keyLength 要生成的加密密钥的长度。 256 spark.network.crypto.keyFactoryAlgorithm 生成加密密钥时使用的算法。 PBKDF2WithHmacSHA1 spark.io.encryption.enabled 启用本地磁盘I/O加密。 安全模式:true
Spark应用开发流程介绍 Spark应用程序开发流程 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件,其应用开发流程都是相同的。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明 阶段 说明
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 使用ZSTD_JNI压缩算法压缩Hive ORC表 配置Hive列加密功能 父主题: 使用Hive
irscheduler.xml spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。 true为使用Hash算法,使用多租户模式时,该参数需配置为true。 false为使用随机连接,多主实例模式,配置为false。 true
irscheduler.xml spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。 true为使用Hash算法,使用多租户模式时,该参数需配置为true。 false为使用随机连接,多主实例模式,配置为false。 true
“HBase_HEAPSIZE” 说明: 该配置与“hfile.block.cache.size”的和不能超过0.8,也就是写和读操作的内存不能超过HeapSize的80%,这样可以保证除读和写外其他操作的正常运行。 0.4 hbase.hstore.blockingStoreFiles
仓库下载。 开发者能力要求 您已经对大数据领域各组件具备一定的认识。 您已经对弹性云服务器的使用方式和MRS服务开发组件有一定的了解。 您已经对Maven构建方式具备一定的认识和使用方法有一定了解。 您已经对Java语法具备一定的认识。 MRS组件应用开发流程说明 通常MRS组件
“HBase_HEAPSIZE” 说明: 该配置与“hfile.block.cache.size”的和不能超过0.8,也就是写和读操作的内存不能超过HeapSize的80%,这样可以保证除读和写外其它操作的正常运行。 0.4 hbase.hstore.blockingStoreFiles
dfs.datanode.sync.behind.writes true 压缩调优 CarbonData结合少数轻量级压缩算法和重量级压缩算法来压缩数据。虽然这些算法可处理任何类型的数据,但如果数据经过排序,相似值在一起出现时,就会获得更好的压缩率。 CarbonData数据加载过程
Spark应用开发流程介绍 Spark应用程序开发流程 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件,其应用开发流程都是相同的。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明 阶段 说明