搜索_华为云

优化小文件场景下的Spark SQL性能 - MapReduce服务 MRS

优化小文件场景下的Spark SQL性能配置场景 Spark SQL的表中，经常会存在很多小文件（大小远小于HDFS块大小），每个小文件默认对应Spark中的一个Partition，也就是一个Task。在很多小文件场景下，Spark会起很多Task。当SQL逻辑中存在Shuffle

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark SQL性能调优
小文件优化 - MapReduce服务 MRS
小文件优化 - MapReduce服务 MRS

小文件优化操作场景 Spark SQL表中，经常会存在很多小文件（大小远小于HDFS的块大小），每个小文件默认对应Spark中的一个Partition，即一个Task。在有很多小文件时，Spark会启动很多Task，此时当SQL逻辑中存在Shuffle操作时，会大大增加hash分桶数

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark SQL性能调优
Flume业务模型配置说明 - MapReduce服务 MRS

集群Flume配置工具界面篇幅有限，Source、Channel、Sink只展示部分参数，详细请参考如下常用配置。

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Flume
Impala应用开发规则 - MapReduce服务 MRS

Impala应用开发规则创建集群时只需指定一个Catalog和一个StoreStore 如果已经创建了两个Catalog和StateStore，Impalad角色需要指定--catalog_service_host和--state_store_host，Catalog角色需要指定

 帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > Impala应用开发规范
Hudi Compaction操作说明 - MapReduce服务 MRS

Hudi Compaction操作说明 Compaction用于合并mor表Base和Log文件。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Hudi > 数据管理维护
Hudi Compaction操作说明 - MapReduce服务 MRS

Hudi Compaction操作说明 Compaction用于合并mor表Base和Log文件。对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Hudi > Hudi数据管理维护
使用HetuEngine查询IoTDB时序数据 - MapReduce服务 MRS

IoTDB和TsFile还提供了相应的客户端工具，满足用户以SQL形式、脚本形式和图形形式写入和查看数据的各种需求。操作流程步骤1：创建MRS集群：创建一个包含有HBase、HetuEngine、Hive、IoTDB组件的MRS集群。

帮助中心 > MapReduce服务 MRS > 最佳实践 > 数据分析 > 物联网时序数据分析
创建HBase索引进行数据查询 - MapReduce服务 MRS

创建HBase索引进行数据查询操作场景 HBase是一个Key-Value类型的分布式存储数据库，HIndex为HBase提供了按照某些列的值进行索引的能力，缩小搜索范围并缩短时延。使用约束列族应以“;”分隔。列和数据类型应包含在“[]”中。列数据类型在列名称后使用“->

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HBase > HBase数据操作
创建HBase索引进行数据查询 - MapReduce服务 MRS

创建HBase索引进行数据查询操作场景 HBase是一个Key-Value类型的分布式存储数据库，HIndex为HBase提供了按照某些列的值进行索引的能力，缩小搜索范围并缩短时延。使用约束列族应以“;”分隔。列和数据类型应包含在“[]”中。列数据类型在列名称后使用“->

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HBase > HBase数据操作
Impala应用开发建议 - MapReduce服务 MRS

Impala应用开发建议 Coordinator和Executor分离部署，Coordinator根据集群规模部署2-5个 Coordinator承担缓存元数据，解析SQL执行计划，和响应客户端请求的功能主要使用jvm内存，而Executor承担数据读写，算子计算等功能，主要使用offheap

帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > Impala应用开发规范
Doris数据查询规范 - MapReduce服务 MRS

Doris数据查询规范该章节主要介绍Doris数据查询时需遵循的规则和建议。 Doris数据查询规则在数据查询业务代码中建议查询失败时进行重试，再次下发查询。 in中常量枚举值超过1000后，必须修改为子查询。禁止使用REST API（Statement Execution

帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > Doris应用开发规范
使用Hive CBO功能优化多表查询效率 - MapReduce服务 MRS

使用Hive CBO功能优化多表查询效率操作场景在Hive中执行多表Join时，Hive支持开启CBO（Cost Based Optimization），系统会自动根据表的统计信息，例如数据量、文件数等，选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Hive > Hive性能调优
使用Hive CBO功能优化查询效率 - MapReduce服务 MRS

使用Hive CBO功能优化查询效率操作场景在Hive中执行多表Join时，Hive支持开启CBO（Cost Based Optimization），系统会自动根据表的统计信息，例如数据量、文件数等，选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Hive > Hive性能调优
手动将CSV离线数据导入至IoTDB - MapReduce服务 MRS

IoTDB和TsFile还提供了相应的客户端工具，满足用户以SQL形式、脚本形式和图形形式写入和查看数据的各种需求。操作流程步骤1：创建MRS集群：创建一个包含有IoTDB组件的MRS集群。

帮助中心 > MapReduce服务 MRS > 最佳实践 > 数据分析 > 物联网时序数据分析
经验总结 - MapReduce服务 MRS
经验总结 - MapReduce服务 MRS

经验总结使用mapPartitions，按每个分区计算结果如果每条记录的开销太大，例： rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions，按每个分区计算结果，如 rdd.mapPartitions

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark Core性能调优
经验总结 - MapReduce服务 MRS
经验总结 - MapReduce服务 MRS

经验总结使用mapPartitions，按每个分区计算结果如果每条记录的开销太大，例 rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions，按每个分区计算结果，如 rdd.mapPartitions

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > Spark应用开发常见问题 > Spark应用调优 > Spark Core调优
index相关配置 - MapReduce服务 MRS
index相关配置 - MapReduce服务 MRS

index相关配置参数描述默认值 hoodie.index.class 用户自定义索引的全路径名，索引类必须为HoodieIndex的子类，当指定该配置时，其会优先于hoodie.index.type配置。 "" hoodie.index.type 使用的索引类型，默认为布隆过滤器

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Hudi > Hudi常见配置参数
经验总结 - MapReduce服务 MRS
经验总结 - MapReduce服务 MRS

经验总结使用mapPartitions，按每个分区计算结果如果每条记录的开销太大，例： rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions，按每个分区计算结果，如： rdd.mapPartitions

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark Core性能调优
MRS集群的节点如何安装主机安全服务？ - MapReduce服务 MRS

MRS集群的节点如何安装主机安全服务？操作场景 MRS集群中的节点可以使用主机安全服务（Host Security Service，HSS）提供的主机管理、风险预防、入侵检测等功能，识别并管理主机中的信息资产，实时监测主机中的风险并阻止非法入侵行为，帮助企业构建服务器安全体系，降低当前服务器面临的主要安全风险

 帮助中心 > MapReduce服务 MRS > 常见问题 > 周边生态对接类
Doris建表规范 - MapReduce服务 MRS
Doris建表规范 - MapReduce服务 MRS

Doris建表规范该章节主要介绍创建Doris表时需遵循的规则和建议。 Doris建表规则在创建Doris表指定分桶buckets时，每个桶的数据大小应保持在100MB~3GB之间，单分区中最大分桶数量不超过5000。表数据超过5亿条以上必须设置分区分桶策略。表的分桶列不要设置太多

 帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > Doris应用开发规范

总条数： 747

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

优化小文件场景下的Spark SQL性能 - MapReduce服务 MRS

小文件优化 - MapReduce服务 MRS

Flume业务模型配置说明 - MapReduce服务 MRS

Impala应用开发规则 - MapReduce服务 MRS

Hudi Compaction操作说明 - MapReduce服务 MRS

Hudi Compaction操作说明 - MapReduce服务 MRS

使用HetuEngine查询IoTDB时序数据 - MapReduce服务 MRS

创建HBase索引进行数据查询 - MapReduce服务 MRS

创建HBase索引进行数据查询 - MapReduce服务 MRS

Impala应用开发建议 - MapReduce服务 MRS

Doris数据查询规范 - MapReduce服务 MRS

使用Hive CBO功能优化多表查询效率 - MapReduce服务 MRS

使用Hive CBO功能优化查询效率 - MapReduce服务 MRS

手动将CSV离线数据导入至IoTDB - MapReduce服务 MRS

经验总结 - MapReduce服务 MRS

经验总结 - MapReduce服务 MRS

index相关配置 - MapReduce服务 MRS

经验总结 - MapReduce服务 MRS

MRS集群的节点如何安装主机安全服务？ - MapReduce服务 MRS

Doris建表规范 - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线