-
MRS 1.9.0.7补丁说明 - MapReduce服务 MRS
patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过
-
配置Spark SQL防御 - MapReduce服务 MRS
若执行含判断条件的批量删除操作,如ALTER TABLE DROP PARTITION(pt < 10),由于该命令本身存在分区数限制(通过“spark.sql.dropPartitionsInBatch.limit”控制,默认1000),会先于防御规则拦截。
-
Spark与其他组件的关系 - MapReduce服务 MRS
根据RDD分区分块情况,计算出写数据的Task数,并下发这些任务到Executor。 Executor执行这些Task,将具体RDD的数据写入到步骤1创建的目录下。 Spark和YARN的关系 Spark的计算调度方式,可以通过YARN的模式实现。
-
Spark2x与其他组件的关系 - MapReduce服务 MRS
根据RDD分区分块情况,计算出写数据的Task数,并下发这些任务到Executor。 Executor执行这些Task,将具体RDD的数据写入到步骤1创建的目录下。 Spark和YARN的关系 Spark的计算调度方式,可以通过YARN的模式实现。
-
购买集群 - MapReduce服务 MRS
集群节点: 节点数:需要购买的节点数量,3.x版本默认为3或根据业务情况选择合适的规格。 实例规格:Master和Core节点保持默认或根据业务情况选择合适的规格。 系统盘:存储类型选择“超高IO”,存储空间默认即可。
-
Hive Join数据优化 - MapReduce服务 MRS
两张表都按照join key进行分桶(clustered by (column))和排序(sorted by(column)),且两张表的分桶数正好是倍数关系。
-
配置Spark Native引擎 - MapReduce服务 MRS
使用成熟的向量化的c++加速库后,数据采用向量化格式存在内存中,可以提高带宽利用率,并通过批量的列数处理获得加速效果。 通过开启Spark Native引擎特性,获得SparkSQL的性能加速。
-
Hive Join数据优化 - MapReduce服务 MRS
两张表都按照join key进行分桶(clustered by (column))和排序(sorted by(column)),且两张表的分桶数正好是倍数关系。
-
Sqoop对接外部存储系统 - MapReduce服务 MRS
-m或-num-mappers 启动n个map来并行导入数据,默认是4个,该值请勿高于集群的最大Map数。
-
添加跨集群HetuEngine数据源 - MapReduce服务 MRS
300 Worker节点使用Task数 每个Worker节点接收数据时使用的Task数量。 5 开启数据压缩 是:启动数据压缩。 否:不启动数据压缩。 是 (可选)自定义配置。 单击“增加”可以增加自定义配置参数。配置HetuEngine数据源自定义参数,参考表2。
-
从零开始使用Spark SQL - MapReduce服务 MRS
输入Spark SQL语句时,总字符数应当小于或等于10000字符,否则会提交语句失败。
-
CarbonData性能调优常见配置参数 - MapReduce服务 MRS
如何调优 一般建议将该参数值设置为执行器核数的1到2倍。例如,在聚合场景中,将task个数从200减少到32,有些查询的性能可提升2倍。
-
网络连接超时导致FetchFailedException - MapReduce服务 MRS
将参数中的核数设置为1,“--executor-cores 1”,任务正常完成,单个任务处理时间在合理范围之内(15秒左右)。
-
Spark2x样例工程介绍 - MapReduce服务 MRS
SparkStreamingtoHbaseScalaExample010 sparknormal-examples/SparkStructuredStreamingJavaExample 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。
-
网络连接超时导致FetchFailedException - MapReduce服务 MRS
将参数中的核数设置为1,“--executor-cores 1”,任务正常完成,单个任务处理时间在合理范围之内(15秒左右)。
-
CarbonData性能调优常见配置参数 - MapReduce服务 MRS
如何调优 一般建议将该参数值设置为执行器核数的1到2倍。例如,在聚合场景中,将task个数从200减少到32,有些查询的性能可提升2倍。
-
提升HBase实时写数据效率 - MapReduce服务 MRS
根据资源情况,适当增加处理线程数。 建议根据CPU的使用情况,可以选择设置为100至300之间的值。 200 hbase.hregion.max.filesize HStoreFile的最大大小(单位:Byte)。
-
提升HBase实时写数据效率 - MapReduce服务 MRS
根据资源情况,适当增加处理线程数。 建议根据CPU的使用情况,可以选择设置为100至300之间的值。 200 hbase.hregion.max.filesize HStoreFile的最大大小(单位:Byte)。
-
使用Loader导出数据 - MapReduce服务 MRS
不可与“Map数”同时配置。当使用关系型数据库连接器时,不支持“Map数据块大小”,请配置“Map数”。 HBASE HBase实例 在HBase作业中,Loader支持从集群可添加的所有HBase服务实例中选择任意一个。
-
ClickHouse数据入库规范 - MapReduce服务 MRS
建议每个批次5k到100k行,写入字段不能太多,太多字段情况下要减少写入行数,以降低对写入节点的内存和CPU压力,每秒不超过1次插入。 多副本并行导入。