检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
def getState = count } 带checkpoint的数据源 source算子的代码,该段代码每发送10000条数据休息1秒钟,制作快照时将到目前为止已经发送的数据的条数保存在UDFState中;从快照中状态恢复时,读取UDFState中的数据条数并重新赋值给count变量。
原因分析 在出现告警时间点发现虚拟机发生了重启,告警发生的原因是因虚拟机重启导致的。 经OS定位虚拟机发生重启的原因是节点没有可用的内存,系统发生内存溢出触发了oom-killer,当进程处于被调用的状态会使进程处于disk sleep状态,最终导致虚拟机发生重启。 查看占用的内存进程,发现占用内存都是正常的业务进程。
集群生命周期管理 MRS支持集群的生命周期管理包括创建集群和删除集群。 创建集群:支持用户定制集群的类型、组件范围、各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与;同时支持用户在集群中运行自定义内容;支持快速创
ProducerMultThread主类的线程启动逻辑 /** * 启动多个线程进行发送 */ public void run() { // 是否使用异步发送模式 final boolean asyncEnable = false;
shuffle出现任务失败 问题 使用Hash shuffle运行1000000(map个数)*100000(reduce个数)的任务,运行日志中出现大量的消息发送失败和Executor心跳超时,从而导致任务失败。 回答 对于Hash shuffle,在shuffle的过程中写数据时不做排序操作,只是
shuffle出现任务失败 问题 使用Hash shuffle运行1000000(map个数)*100000(reduce个数)的任务,运行日志中出现大量的消息发送失败和Executor心跳超时,从而导致任务失败。 回答 对于Hash shuffle,在shuffle的过程中写数据时不做排序操作,只是
告警解释 系统以用户配置的告警周期检查Checkpoint连续失败次数,如果Flink作业Checkpoint连续失败次数达到用户配置的阈值,则发送告警。当Checkpoint恢复正常,或者作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45636 重要 是 告警参数
系统以用户配置的告警周期检查CheckPoint连续失败次数,如果FlinkServer作业CheckPoint连续失败次数达到用户配置的阈值,则发送告警。当CheckPoint恢复正常,或者作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45636 重要 是 告警参数
Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 可能原因 Flume Sink故障,导致数据无法发送。 网络故障,导致数据无法发送。 处理步骤 检查Flume Sink是否故障。 确认Flume Sink是否是HDFS类型。 是,执行1.b。 否,执行1
ALM-12085 服务审计日志转储失败 告警解释 系统每天凌晨三点启动服务审计日志转储,将服务审计日志备份到OMS节点,如果转储失败,则发送告警。当下一次转储成功,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12085 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。
OpenTSDB HTTP API接口介绍 OpenTSDB提供了基于HTTP或HTTPS的应用程序接口。请求方式是通过向资源对应的路径发送标准的HTTP请求,请求包含GET、POST方法。它的接口与开源OpenTSDB保持一致,请参见https://opentsdb.net/d
过期则发送告警。 当系统中用户密码在有效期内,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 12206 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
HBase过载调优 操作场景 当HBase业务突然出现峰值,短时间内大量请求发送到一个RegionServer/HMaster时,超过其可接受的范围,就会造成过载。过载会导致应用侧读写性能下降,HBase服务侧频繁GC,严重时会导致服务实例重启等。 当前HBase具有防过载能力,可以实现拒绝超大
过期时间剩余不足15天,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12079 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
过期时间剩余不足15天,则发送告警。 当系统中omm密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12080 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
omm用户或密码即将过期(2.x及以前版本) 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户和密码是否过期,如果用户或密码即将在15天内过期,则发送告警。 当系统中omm用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12031 次要
重要(默认连续3次检测超过9次) 紧急(默认连续3次检测超过12次) 否 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
Kafka样例程序开发思路 场景说明 Kafka是一个分布式消息系统,在此系统上用户可以做一些消息的发布和订阅操作,假定用户要开发一个Producer,让其每秒向Kafka集群某Topic发送一条消息,另外还需要实现一个Consumer,订阅该Topic,实时消费该类消息。 开发思路 使用Linux客户端创建一个Topic。
期性对复制表进行检查,若数据不同步,则发送告警。副本间所有复制表数据同步后,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 45440 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名
基于某些业务要求,开发的Flink应用程序实现功能:实时输出带有前缀的消息内容。 数据规划 Flink样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户),并从Kafka组件接收数据。 确保集群安装完成,包括HDFS、Yarn、Flink和Kafka。 创建Topic。