检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
shards shard(分片)是对cluster的横向切分,1个cluster可以由多个shard组成。 replicas replica(副本),1个shard可以有多个replica组成。
与关系数据库连接时,可以选择通用数据库连接器(generic-jdbc-connector)或者专用数据库连接器(oracle-connector、oracle-partition-connector、mysql-fastpath-connector),专用数据库连接器特别针对具体数据库类型进行优化
spout = new WordSpout(); WordCounter bolt = new WordCounter(); //HbaseMapper,用于解析tuple内容 SimpleHBaseMapper
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同? 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
--database 默认当前操作的数据库。 默认值为服务端的默认配置(default)。 --multiline 如果指定,允许多行语句查询(Enter仅代表换行,不代表查询语句完结)。 --multiquery 如果指定,允许处理用;号分隔的多个查询,只在非交互模式下生效。
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 Spark Core内存调优 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能
Flink性能调优规则 及时对Hudi表进行compaction防止Hudi Source算子Checkpoint完成时间过长 当Hudi Source算子Checkpoint完成时间长时,可检查该Hudi表compaction是否正常。因为当长时间不做compaction时list
调整Hudi数据源性能 本章节适用于MRS 3.3.1及以后版本。 HetuEngine具备高速访问Hive、Hudi等数据源的能力。对于Hudi数据源调优,可以分为对Hudi表本身和对集群环境的调优。 Hudi表调优 可参考如下建议优化表和数据设计: 建表时尽量按照频繁使用的过滤条件字段进行分区
Spark on OBS性能调优 配置场景 Spark on OBS在小批量频繁请求OBS的场景下,可以通过关闭OBS监控提升性能。 配置描述 在Spark客户端的“core-site.xml”配置文件中修改配置。 表1 参数介绍 参数 描述 默认值 fs.obs.metrics.switch
Ranger性能调优 操作场景 Ranger给各组件提供权限策略,当使用Ranger的服务增多,需要调整Ranger的规格。 本章节仅适用MRS 3.2.0及之后版本。 内存参数配置 登录FusionInsight Manager页面,选择“集群 > 服务 > Ranger > 配置
ClickHouse性能调优 ClickHouse数据表分区过多调优 ClickHouse加速Merge调优 ClickHouse加速TTL操作调优 父主题: 使用ClickHouse
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 配置多并发客户端连接JDBCServer 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化
= line.toLowerCase(Locale.getDefault()).split(REGEX_STRING); for (String word : words) { Integer oldValue
<String, String> records = consumer.poll(Duration.ofMillis(waitTime)); for (ConsumerRecord<String, String> record : records) {
schema是表、视图以及其他数据库对象的容器。当指定可选参数IF NOT EXISTS时,如果系统已经存在同名的schema,将不会报错。 Schema默认路径为hdfs://hacluster/user/hive/warehouse/。
创建高查询性能的CarbonData表 操作场景 本章节根据超过50个测试用例总结得出建议,帮助用户创建拥有更高查询性能的CarbonData表。 表1 CarbonData表中的列 Column name Data type Cardinality Attribution msname
- - - - - - REFRESH INDEX - √ - - - - - - - - LOAD DATA/INSERT INTO - - - - - - - - √ √ UPDATE CARBON TABLE √ √ - - - - √ - - - DELETE RECORDS
false true或false --ldap_bind_pattern ldap userDNPattern 例如:cn=%s,ou=People,dc=huawei,dc=com - - --ldap_passwords_in_clear_ok 如果设置为true,将允许ldap
提升HBase连续Put数据场景性能 操作场景 对大批量、连续put的场景,配置下面的两个参数为“false”时能大量提升性能。 “hbase.regionserver.wal.durable.sync” “hbase.regionserver.hfile.durable.sync
提升HBase Put和Scan数据性能 操作场景 HBase有很多与读写性能相关的配置参数。读写请求负载不同的情况下,配置参数需要进行相应的调整,本章节旨在指导用户通过修改RegionServer配置参数进行读写性能调优。 操作步骤 登录FusionInsight Manager