检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
侧将数据聚合成大宽表再导入ClickHouse。分布式join的查询转成本地表的join查询,不仅省去大量的节点间数据传播,同时本地表参与计算的数据量也会少很多。业务层再基于所有分片本地join的结果进行数据汇总,性能会有数量级的提升。 设置合理的part大小 min_bytes
应用程序,则每个用户可用资源量不能超过25%。 用户资源上限因子 表示用户使用的最大资源限制因子,与当前租户在集群中实际资源百分比相乘,可计算出用户使用的最大资源百分比。 状态 表示资源计划当前的状态。 默认资源池 表示队列使用的资源池。默认为“default”,如果需要修改为其
现有集群:包括除了“失败”和“已删除”状态以外的所有集群。 历史集群:仅包含“已删除”的集群,目前界面只显示6个月内创建且已删除的集群,若需要查看6个月以前删除的集群,请联系华为云支持人员。 失败任务管理:单击可查看“失败”状态的集群创建任务。 表1 集群列表参数 参数 参数说明 名称/ID 集群的名称,创建集群时设
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*) 查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
已准备一个弹性云服务器,主机操作系统及版本请参见表1。 表1 参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler 可用:Euler OS 2.2 可用:Euler OS 2.3 可用:Euler OS 2.5 鲲鹏计算(ARM) Euler 可用:Euler OS 2.8 例如,用户可以选择操作系统为Euler的弹性云服务器准备操作。
云服务器操作系统及版本建议如下: 表1 操作系统参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler 可用:Euler OS 2.2 可用:Euler OS 2.3 可用:Euler OS 2.5 鲲鹏计算(ARM) Euler 可用:Euler OS 2.8 弹性云服务器的CPU架构需和MRS集群节点保持一致。
在集群外节点安装客户端前提条件 已准备一个Linux弹性云服务器,主机操作系统及版本建议参见表1。 表1 参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler EulerOS 2.5 SUSE SUSE Linux Enterprise Server 12 SP4(SUSE 12.4)
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*) 查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
Flink的安全都为开源社区提供和自身研发。有些是需要用户自行配置的安全特性,如认证、SSL传输加密等,这些特性可能对性能和使用方便性造成一定影响。 Flink作为大数据计算和分析平台,对客户输入的数据是否包含敏感信息无法感知,因此需要客户保证输入数据是脱敏的。 客户可以根据应用环境,权衡配置安全与否。 任何与安全有关的问题,请联系运维人员。
或多个物化视图的等效请求。 语法支持的属性包括: storage_table:指定存储表表名。 need_auto_refresh: 管理计算实例时,预先创建维护实例后,可通过设置need_auto_refresh为true,创建具备自动刷新能力的物化视图,它会自动创建并提交物化
private IntWritable timeInfo = new IntWritable(1); /** * 分布式计算 * * @param key Object : 原文件位置偏移量。 * @param value Text
stat -c %y $(ls -t | grep "fsimage_[0-9]*$" | head -1) 执行date命令获取系统当前时间。 计算最新FsImage的生成时间和当前时间的时间差,判断该时间差是否大于元数据合并周期的三倍。 是,执行16。 否,执行20。 备NameNo
Flink的安全都为开源社区提供和自身研发。有些是需要用户自行配置的安全特性,如认证、SSL传输加密等,这些特性可能对性能和使用方便性造成一定影响。 Flink作为大数据计算和分析平台,对客户输入的数据是否包含敏感信息无法感知,因此需要客户保证输入数据是脱敏的。 客户可以根据应用环境,权衡配置安全与否。 任何与安全有关的问题,请联系运维人员。
节点间网络互通异常”或“节点故障”等告警。 是,节点间网络不互通,请联系运维人员修复。 否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关
onServer进行数据操作类通信。 RegionServer RegionServer负责提供表数据读写等服务,是HBase的数据处理和计算单元。 RegionServer一般与HDFS集群的DataNode部署在一起,实现数据的存储功能。 ZooKeeper集群 ZooKee
length('hello');-- 5 levenshtein_distance(string1, string2) → bigint 描述:计算string1和string2的Levenshtein距离,即将string转为string2所需要的单字符编辑(包括插入、删除或替换)最少次数。
在概览页签下的“基本信息”区域单击“HSConsole WebUI”后的链接,进入HSConsole界面。 单击“计算实例”,查看待操作的租户的实例状态,当绿色图标和蓝色图标数量均为“0”时,可执行5配置开启物化视图改写能力。 在“计算实例”页签,在待操作的实例所属租户所在行的“操作”列单击“配置”,进入“配置实例”页签,添加如下自定义参数。
sumers/consumer-group-xxx/owners/topic-xxx/x。 当触发负载均衡后,原来的consumer会重新计算并释放已占用的partitions,此过程需要一定的处理时间,新来的consumer抢占该partitions时很有可能会失败。 表1 参数说明
据压缩到更少的partition中去。因为filter之后,RDD的每个partition中都会有很多数据被过滤掉,此时如果照常进行后续的计算,其实每个task处理的partition中的数据量并不是很多,有一点资源浪费,而且此时处理的task越多,可能速度反而越慢。因此用coa
类型 描述 sink.partition-commit.trigger process-time String process-time:基于计算节点的系统时间,它既不需要分区时间提取,也不需要生成watermark。即“当前系统时间”超过“分区创建时的系统时间”加上“延迟”时间,就提交分区。