检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
lts.conf”配置文件中,重启JDBCServer实例。 MRS_3.2.0-LTS.1.6以及之后补丁,Spark支持子查询字段不带聚合函数语法,开启方法(若之前有设置过,则跳过):在JDBCServer的自定义custom参数添加spark.sql.legacy.correlated
RegionServer是HBase集群运行在每个工作节点上的服务。一方面维护Region的状态,提供对于Region的管理和服务;另一方面,上传Region的负载信息,参与Master的分布式协调管理。 时间戳 用于索引同一份数据的不同版本,时间戳的类型是64位整型。时间戳可以由HBase在数据写入时自动赋值或者由客户显式赋值。
KStream<String, String> source = builder.stream(INPUT_TOPIC_NAME); // 聚合 key-value 键值对的计算结果 final KTable<String, Long> counts = source
com"; 安全集群在Zookeeper认证时是通过四字命令获取Zookeeper服务端的principal,在Zookeeper实例高负载或者实例不稳定时,会由于无法使用四字命令获取服务端的principal导致认证失败,需要通过客户端把该值传入环境中使用,避免认证失败的问题。
hoodie.bloom.index.parallelism 索引查找的并行度,其中涉及Spark Shuffle。 默认情况下,根据输入的工作负载特征自动计算的。 0 hoodie.bloom.index.prune.by.ranges 为true时,从文件框定信息,可以加快索引查找的速度。
bulkload作业的region信息,作业完成后自动删除 否 Loader Hbase Bulkload作业失败 /tmp/logs 固定目录 MR任务日志在HDFS上的聚合路径 是 MR任务日志丢失 /tmp/archived 固定目录 MR任务日志在HDFS上的归档路径 是 MR任务日志丢失 /tmp/hadoop-yarn/staging
lts.conf”配置文件中,重启JDBCServer实例。 MRS_3.2.0-LTS.1.6以及之后补丁,Spark支持子查询字段不带聚合函数语法,开启方法(若之前有设置过,则跳过):在JDBCServer的自定义custom参数添加spark.sql.legacy.correlated
ontext时传入指定的profiler来覆盖默认的profiler。 false spark.python.worker.memory 聚合过程中每个python worker进程所能使用的内存大小,其值格式同指定JVM内存一致,如512m,2g。如果进程在聚集期间所用的内存超过了该值,数据将会被写入磁盘。
ontext时传入指定的profiler来覆盖默认的profiler。 false spark.python.worker.memory 聚合过程中每个python worker进程所能使用的内存大小,其值格式同指定JVM内存一致,如512m,2g。如果进程在聚集期间所用的内存超过了该值,数据将会被写入磁盘。
启用并行数据读取功能将基于节点分布和“max-splits”参数值来确定实际的split数。 并行读取将与数据源创建多个连接,被依赖的数据源应当具备支持负载的能力。 false split-type 并行数据读取类型 NODE:基于GaussDB数据源DN节点划分并行度 PARTITION:基于表分区划分并行度
KStream<String, String> source = builder.stream(INPUT_TOPIC_NAME); // 聚合 key-value 键值对的计算结果 final KTable<String, Long> counts = source
节点组数量总和小于等于10个。 管控分设 管理角色和控制角色分别部署在不同的Master节点中,数据实例合设在同一节点组。该部署方式适用于100-500个节点,在高并发负载情况下表现更好。 Master节点数量大于等于5个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。
新Partition数目建议配置为Kafka数据磁盘数量的倍数。 当前步骤修改可能不会很快解决当前告警,需要结合11中的数据保存时间逐渐均衡数据。 考虑是否需要扩容。 建议当前Kafka磁盘使用率超过80%时,则需要扩容。 是,执行20。 否,执行21。 扩展磁盘容量,扩展后检查告警是否消失。
40282346638528860e+38,正或负 FLOAT 用法说明: 分布式查询使用高性能硬件指令进行单精度或者双精度运算时,由于每次执行的顺序不一样,在调用聚合函数,比如SUM(),AVG(),特别是当数据规模非常大时,达到数千万甚至数十亿,其运算结果可能会略有不同。这种情况下,建议使用DECIMAL数据类型来运算。
Flink支持ignoreDelete特性。 Yarn NodeManager支持优雅退服。 Kafka支持数据加密。 Spark支持子查询字段不带聚合函数语法(设置spark.sql.legacy.correlated.scalar.query.enabled参数值为true)。 Spa
解决ClickHouse OOM异常情况下zk请求可能挂起的问题 解决ClickHouse grpc端口冲突时崩溃的问题 解决ClickHouse将错误的聚合状态传递给groupBitmap*时发生崩溃问题 解决ClickHouse在ZooKeeper客户端中的中止问题 解决ClickHouse
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
度器将Job分解为多个Task发送到各个Worker中执行,各个Worker将计算的结果上报给Driver(即Master),Driver聚合结果返回给客户端。 图3 Spark的Master和Worker 在此结构中,有几个说明点: 应用之间是独立的。 每个应用有自己的exec
TTL变更 场景1:TTL周期由小变大方案: 方案1:新建一张TTL时间为最新时间的表结构相同但名不同的表,把原表的数据导入新表,交换表名字; 方案2:业务代码中异步下发CK的修改TTL语句,下发之后业务代码不需要等待执行结果 1)类似在shell中,nohup sh xx.sh
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml