检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
置。 仅分析集群、流式集群和混合集群支持创建集群时配置弹性伸缩策略。 登录MRS管理控制台。 在购买包含有Task类型节点组件的集群时,参考自定义购买MRS集群配置集群软件配置和硬件配置信息后,在“高级配置”页签的弹性伸缩栏,打开对应Task节点类型后的开关按钮,即可进行弹性伸缩规则及资源计划的配置或修改。
worker命令查看worker进程信息如下: 原因分析 由于topology.worker.gc.childopts、topology.worker.childopts和worker.gc.childopts(服务端参数)有优先级,优先级大小为:topology.worker.gc.childopts > worker
当发生RocksDB读写延迟大时,可开启RocksDB监测和告警,通过监测和相关告警项对作业的RocksDB参数进行调优。当作业调优后,建议关闭RocksDB的监测和告警,因为RocksDB的监测和告警会损失RocksDB的5%~10%性能。 为了避免对其他作业的影响,RocksDB监测的相关配置通过自定义参数生
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,并且文件中的数据尽可能的压缩来降低存储
ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,并且文件中的数据尽可能的压缩来降低存储
题。 数据修改 建议慎用delete、update的mutation操作 标准SQL的更新、删除操作是同步的,即客户端要等服务端返回执行结果(通常是int值);而ClickHouse的update、delete是通过异步方式实现的,当执行update语句时,服务端立即返回执行成功
假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。 现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。 table2表有记录key=1,cf:cid=1000,表示用户1的历史消息记录金额为1000元。
不同集群的“user.keytab”、“krb5.conf”不能共用。 “conf”目录下的“log4j.properties”文件,客户可根据自己的需要进行配置。 代码样例 如下是代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples的HdfsExample类。
x及以后版本。 修改集群节点机架信息对系统的影响 修改主机机架名称,将影响HDFS的副本存放策略、Yarn的任务分配及Kafka的Partition存储位置。修改后需重启HDFS、Yarn和Kafka,使配置信息生效。 不合理的机架配置会导致集群的节点之间的负载(包括CPU、内存、磁盘、网
开发和部署HetuEngine Function Plugin 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。 本章节主要介绍开发和应用HetuEngine Function Plugin的具体步骤。 MRS 3.2.1及以后版本,需要基于JDK17
执行大数据量的shuffle过程时Executor注册shuffle service失败 问题 执行超过50T数据的shuffle过程时,出现部分Executor注册shuffle service超时然后丢失从而导致任务失败的问题。错误日志如下所示: 2016-10-19 01:33:34
执行大数据量的shuffle过程时Executor注册shuffle service失败 问题 执行超过50T数据的shuffle过程时,出现部分Executor注册shuffle service超时然后丢失从而导致任务失败的问题。错误日志如下所示: 2016-10-19 01:33:34
xml”。获取Yarn客户端配置文件(下载路径/Yarn/config)中的“core-site.xml”。 用于替换原有代码的中的使用的配置文件。 分别在HDFS和Yarn的“core-site.xml”文件中增加访问OBS的信息,具体如下: <property> <name>fs.obs
您可以在命令行运行模式中运行help命令获取HBase的命令参数的帮助信息。 注意事项 count命令不支持条件统计,仅支持全表统计。 获取HBase replication指标的命令 通过Shell命令“status”可以获取到所有需要的指标。 查看replication source指标的命令。
您可以在命令行运行模式中运行help命令获取HBase的命令参数的帮助信息。 注意事项 count命令不支持条件统计,仅支持全表统计。 获取HBase replication指标的命令 通过Shell命令“status”可以获取到所有需要的指标。 查看replication source指标的命令。
您可以在命令行运行模式中运行help命令获取HBase的命令参数的帮助信息。 注意事项 count命令不支持条件统计,仅支持全表统计。 获取HBase replication指标的命令 通过Shell命令“status”可以获取到所有需要的指标。 查看replication source指标的命令。
您可以在命令行运行模式中运行help命令获取HBase的命令参数的帮助信息。 注意事项 count命令不支持条件统计,仅支持全表统计。 获取HBase replication指标的命令 通过Shell命令“status”可以获取到所有需要的指标。 查看replication source指标的命令。
--指定bulk_insert写入时的并行度,等于写入完成后保存的分区parquet文件数。 insert into dsrTable select * from srcTabble 开启log列裁剪,提升mor表查询效率 mor表读取的时候涉及到Log和Parquet的合并,性能不是很理想。