检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
个文件中的记录总数约为130K。 默认值(60000)大约是此近似值的一半。 注意: 将此值设置的太低,将产生很多误报,并且索引查找将必须扫描比其所需的更多的文件;如果将其设置的非常高,将线性增加每个数据文件的大小(每50000个条目大约4KB)。 60000 hoodie.index
购买时,“防护主机数量”需跟MRS集群中的节点数量保持一致。 图3 防护主机数量 步骤二 安装Agent Linux版本 Windows版本 Agent是用于执行检测任务,全量扫描主机,实时监测主机的安全状态。 步骤三 开启主机防护 开启主机安全防护时,按照一台主机对应一个配额的关系进行绑定,只有绑定配额的主机才能正常防护。
重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 优化数据结构 把数据按列存放,读取数据时就可以只扫描需要的列。 使用Hash Shuffle时,通过设置spark.shuffle.consolidateFiles为true,来合并shuf
重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 优化数据结构 把数据按列存放,读取数据时就可以只扫描需要的列。 使用Hash Shuffle时,通过设置spark.shuffle.consolidateFiles为true,来合并shuf
重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 优化数据结构 把数据按列存放,读取数据时就可以只扫描需要的列。 使用Hash Shuffle时,通过设置spark.shuffle.consolidateFiles为true,来合并shuf
含;|&><'$特殊字符,可为空。 注意: 用户输入带有敏感信息(如登录密码)的参数时,可通过在参数名前添加“@”的方式为该参数值加密,以防止敏感信息被明文形式持久化。 在MRS管理控制台查看作业信息时,敏感信息会显示为“*”。 例如:username=testuser @password=用户密码
MEM”参数设置内存。 设计分区方法 合理的设计分区依据,可以优化task的切分。在程序编写过程中要尽量分区均匀,这样可以实现每个task数据不倾斜,防止由于某个task的执行时间过长导致整个任务执行缓慢。 以下是几种分区方法。 随机分区:将元素随机的进行分区。 dataStream.shuffle();
据分布均匀和查询吞吐均衡。 数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率。 查询吞吐利用查询SQL的分桶剪裁优化避免了全桶扫描,以提升查询性能。 分桶列的选取:优先考虑数据较为均匀且常用于查询条件的列作为分桶列。 可使用以下方法分析是否会导致数据倾斜: SELECT
taging目录下文件 否 MR任务日志丢失 /tmp/hadoop-yarn/staging/history/done 固定目录 周期性扫描线程定期将done_intermediate的日志文件转移到done目录 否 MR任务日志丢失 /tmp/mr-history 固定目录 存储预加载历史记录文件的路径
mpala作为代理连接Kudu进行数据操作。 Impala与HBase间的关系 Impala表默认使用存储在HDFS上的数据文件,便于全表扫描的批量加载和查询。但是,HBase可以提供对OLTP样式组织的数据的便捷高效查询。 父主题: 组件介绍
在SQL前加explain (analyze,verbose,timing,costs,buffers)分析执行计划,发现执行时需要全表扫描。 查看索引,发现不满足最左匹配原则。 处理步骤 重建索引。 su - omm gsql -p 20051 -U omm -W password
合理的时间值。 1296000 yarn.log-aggregation.retain-check-interval-seconds 设置扫描HDFS保存的Container聚合日志的间隔时间。单位:秒。 设置为-1或0时,间隔时间将为“yarn.log-aggregation.
900000 事务最大超时时间,如果客户端的请求时间超过该值,则Broker将在InitProducerIdRequest中返回一个错误。这样可以防止客户端超时时间过长,而导致消费者无法接收topic。 user.group.cache.timeout.sec 指定缓存中保存用户对应组信息的时间。单位:秒。
修改MRS集群NTP服务器对系统的影响 更换NTP服务器是高危操作,更换后集群时间可能将会变化。 更换NTP服务器前NTP服务器与集群当前时间偏差大于150s,则需先停止集群,防止数据丢失。停止集群期间服务无法访问。 如果NTP服务器与集群当前时间偏差大于15分钟,集群访问OBS会连接失败。 对于开启Kerberos
Flink对接AOM参数配置 名称 值 是否必填 描述 metrics.reporter alarm,aom 是 alarm用于Flinkserver的告警,防止自定义参数覆盖Flink原有的参数。需同时填写alarm和aom。 metrics.reporter.aom.url 1.d中获取的url的值
满足指定前缀的对象将受生命周期规则管理,输入的对象前缀不能包括\:*?"<>|特殊字符,不能以/开头,不能两个/相邻。如果不输入则表示配置到整个文件系统。 说明: 为防止其他业务数据被误删除,不建议使用配置到整个文件系统或者层级较高的目录的生命周期规则。 生命周期规则适用的对象前缀,MRS集群组件数据回收站
JobHistoryServer使用浮动IP对外提供服务。 兼容JHS单实例,也支持HA双实例。 同一时刻,只有一个节点启动JHS进程,防止多个JHS操作同一文件冲突。 支持扩容减容、实例迁移、升级、健康检查等。 MapReduce开源增强特性:特定场景优化MapReduce的
900000 事务最大超时时间,如果客户端的请求时间超过该值,则Broker将在InitProducerIdRequest中返回一个错误。这样可以防止客户端超时时间过长,而导致消费者无法接收topic。 user.group.cache.timeout.sec 指定缓存中保存用户对应组信息的时间。单位:秒。
Hive备份恢复功能不支持识别用户的Hive表、索引、视图等对象在业务和结构上存在的关联关系。用户在执行备份恢复任务时,需要根据业务场景管理统一的恢复点,防止影响业务正常运行。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,
setBlockCacheEnabled(false); HBase不支持条件查询和Orderby等查询方法,存储按照字典排序,读取只支持Rowkey扫描 设计时应避免HBase随机查找、排序的应用场景。 业务表设计建议 预分Region,使Region分布均匀,提高并发 避免过多的热点Re