检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS支持自研的CarbonData存储技术。CarbonData是一种高性能大数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引、字典编码、预聚合、动态Partition、准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应。同时MRS支持自研增强型调度器Super
slideInterval) 当调用在DStream的KV对上,返回一个新的DStream的KV对,其中每个Key的Value根据滑动窗口中批次的reduce函数聚合得到。 join(otherStream, [numTasks]) 实现不同的Spark Streaming之间做合并操作。 DStreamKafkaWriter
slideInterval) 当调用在DStream的KV对上,返回一个新的DStream的KV对,其中每个Key的Value根据滑动窗口中批次的reduce函数聚合得到。 join(otherStream, [numTasks]) 实现不同的Spark Streaming之间做合并操作。 DStreamKafkaWriter
slideInterval) 当调用在DStream的KV对上,返回一个新的DStream的KV对,其中每个Key的Value根据滑动窗口中批次的reduce函数聚合得到。 join(otherStream, [numTasks]) 实现不同的Spark Streaming之间做合并操作。 DStreamKafkaWriter
RegionServer是HBase集群运行在每个工作节点上的服务。一方面维护Region的状态,提供对于Region的管理和服务;另一方面,上传Region的负载信息,参与Master的分布式协调管理。 时间戳 用于索引同一份数据的不同版本,时间戳的类型是64位整型。时间戳可以由HBase在数据写入时自动赋值或者由客户显式赋值。
com"; 安全集群在Zookeeper认证时是通过四字命令获取Zookeeper服务端的principal,在Zookeeper实例高负载或者实例不稳定时,会由于无法使用四字命令获取服务端的principal导致认证失败,需要通过客户端把该值传入环境中使用,避免认证失败的问题。
hoodie.bloom.index.parallelism 索引查找的并行度,其中涉及Spark Shuffle。 默认情况下,根据输入的工作负载特征自动计算的。 0 hoodie.bloom.index.prune.by.ranges 为true时,从文件框定信息,可以加快索引查找的速度。
lts.conf”配置文件中,重启JDBCServer实例。 MRS_3.2.0-LTS.1.6以及之后补丁,Spark支持子查询字段不带聚合函数语法,开启方法(若之前有设置过,则跳过):在JDBCServer的自定义custom参数添加spark.sql.legacy.correlated
KStream<String, String> source = builder.stream(INPUT_TOPIC_NAME); // 聚合 key-value 键值对的计算结果 final KTable<String, Long> counts = source
bulkload作业的region信息,作业完成后自动删除 否 Loader Hbase Bulkload作业失败 /tmp/logs 固定目录 MR任务日志在HDFS上的聚合路径 是 MR任务日志丢失 /tmp/archived 固定目录 MR任务日志在HDFS上的归档路径 是 MR任务日志丢失 /tmp/hadoop-yarn/staging
lts.conf”配置文件中,重启JDBCServer实例。 MRS_3.2.0-LTS.1.6以及之后补丁,Spark支持子查询字段不带聚合函数语法,开启方法(若之前有设置过,则跳过):在JDBCServer的自定义custom参数添加spark.sql.legacy.correlated
ontext时传入指定的profiler来覆盖默认的profiler。 false spark.python.worker.memory 聚合过程中每个python worker进程所能使用的内存大小,其值格式同指定JVM内存一致,如512m,2g。如果进程在聚集期间所用的内存超过了该值,数据将会被写入磁盘。
启用并行数据读取功能将基于节点分布和“max-splits”参数值来确定实际的split数。 并行读取将与数据源创建多个连接,被依赖的数据源应当具备支持负载的能力。 false split-type 并行数据读取类型 NODE:基于GaussDB数据源DN节点划分并行度 PARTITION:基于表分区划分并行度
ontext时传入指定的profiler来覆盖默认的profiler。 false spark.python.worker.memory 聚合过程中每个python worker进程所能使用的内存大小,其值格式同指定JVM内存一致,如512m,2g。如果进程在聚集期间所用的内存超过了该值,数据将会被写入磁盘。
KStream<String, String> source = builder.stream(INPUT_TOPIC_NAME); // 聚合 key-value 键值对的计算结果 final KTable<String, Long> counts = source
节点组数量总和小于等于10个。 管控分设 管理角色和控制角色分别部署在不同的Master节点中,数据实例合设在同一节点组。该部署方式适用于100-500个节点,在高并发负载情况下表现更好。 Master节点数量大于等于5个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。
新Partition数目建议配置为Kafka数据磁盘数量的倍数。 当前步骤修改可能不会很快解决当前告警,需要结合11中的数据保存时间逐渐均衡数据。 考虑是否需要扩容。 建议当前Kafka磁盘使用率超过80%时,则需要扩容。 是,执行20。 否,执行21。 扩展磁盘容量,扩展后检查告警是否消失。
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
40282346638528860e+38,正或负 FLOAT 用法说明: 分布式查询使用高性能硬件指令进行单精度或者双精度运算时,由于每次执行的顺序不一样,在调用聚合函数,比如SUM(),AVG(),特别是当数据规模非常大时,达到数千万甚至数十亿,其运算结果可能会略有不同。这种情况下,建议使用DECIMAL数据类型来运算。
Flink支持ignoreDelete特性。 Yarn NodeManager支持优雅退服。 Kafka支持数据加密。 Spark支持子查询字段不带聚合函数语法(设置spark.sql.legacy.correlated.scalar.query.enabled参数值为true)。 Spa