华为云用户手册

  • 回滚补丁 执行卸载脚本。 su - omm cd /home/omm/ MRS _3.1.0_TROS_Tools_patch_20240430 vi ips.ini 在ips.ini中配置需要卸载的节点IP(只会卸载填写IP的节点)。 每行配置一个IP,中间不能有空行。 nohup sh install.sh rollback & 通过tail -f nohup.out查看执行情况(打印“rollback patch success.”表示执行完成)。 父主题: 回滚补丁
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.3.1-LTS.1.2 发布时间 2024-08-19 解决的问题 MRS 3.3.1-LTS.1.2修复问题列表: 解决Doris集群产生RFC请求耗时超过阈值的误告警问题 解决Doris的BE实例crash重启的问题 解决Doris物化视图测试时出现过crash重启的问题 解决Doris审计日志SQL截断的问题 解决Doris coredump文件内存打印未关联源码位置的问题 解决Doris 某个tablet的副本数据查询不一致的问题 解决Doris UDF异常数据处理的问题,该问题需要在安装补丁前删掉UDF函数,打完补丁重新创建UDF函数 解决Doris开源问题 解决Doris 执行select * from quires() 存在kill失败的慢查询记录的问题 解决Hudi隐式分区refresh table导致作业异常的问题 解决HBase Cache key had block type null日志打印过多,影响性能的问题 解决HBase偶现Ranger协处理器抛NullPointerException,导致regionserver重启的问题 解决HBase修改log4j动态配置未重启实例时,日志未脱敏的问题 [Hidden partitioning] identity(col) function doesn't support the timestamp type [Hidden partitioning] Check fields exist in table schema [Hidden partitioning] Incorrect partition rules in CREATE TABLE should be restricted [Hidden partitioning] Partitioned table can enable hidden partitioning, which needs to be restricted [Hidden partitioning] Sql execution INSERT OVERWRITE will overwrite the entire table time travel 和delta保存兼容性 解决Hudi海量分区场景查询过滤不带分区条件,查询性能慢的问题 Identical substrings in primary keys with bucket index cause duplicate keys error 解决Hudi删除外表之后重建报错的问题 解决Hive查询Hudi特殊场景下失败的问题 [Hidden partitioning] Fix Job fails for non-partitioned table for streaming read 解决Flink on hudi模块存在默认密码硬编码的问题 增加新的call命令,清除所有历史版本数据,仅保留所有最新的fileslice,同时清理timeline文件,仅保留一个最新的commit 单条数据大小估算时跳过包含delete操作的commit [Hidden partitioning] RENAME and DROP hidden partition column is prohibited [Hidden partitioning] Clustering with hidden partition field order is prohibited [Hidden partitioning] Support newline char in hidden partition rule [Hidden partitioning] Change hidden partition properties is forbidden 解决Flink流读Hudi非分区表带过滤条件,流读失败的问题 解决HetuEngine访问Hudi带log文件失败的问题 解决Hudi表执行drop partition后重新写入相同分区的数据,分区无法添加到MetaStore,导致Hive/HetuEngine读不到新数据的问题 解决Flink创建Hudi隐式分区表失败的问题 解决Hive使用Tez引擎执行了union all后生产了HIVE_UNION_DIR目录,后面再使用concatenate语句对分区执行小文件合并时必现数据丢失的问题 解决更改集群ntp服务器失败的问题 解决未配置ntp时钟源ip地址的问题 解决Kudu 45476告警资料跟告警无法对应的问题 解决Kudu英文资料存在huawei字样的问题 解决Impala租户资源配置Manager页面报错的问题 解决Kudu和Impala客户端过大的问题 解决Impala开启Ldap后上报服务亚健康检查告警的问题 解决Impala并发把资源池打满,导致服务健康检查失败,Impalad实例重启的问题 Knox支持@符号转化成中划线,支持邮箱形式账号提交作业 解决Hudi的bucket(col,N)函数不支持timestamp字段类型,建表后插入数据,数据转换错误的问题 解决Hudi的identity(col)函数不支持date字段类型,转换出来的隐式分区显示default的问题 解决Hudi的truncate(col, W)函数,W在建表时可以为负数的问题 解决Hudi分区规则属性包含5个以上的规则应建表失败的问题 父主题: MRS 3.3.1-LTS.1.2补丁说明
  • 检查集群是否已经支持root补丁特性 集群是否已经安装了MRS 3.2.0-LTS.1.6及之后版本的任意一个补丁。 是,可以直接安装MRS_3.2.0-LTS.1.10补丁,此时安装MRS_3.2.0-LTS.1.10补丁会提示需要用户输入root密码或者密钥。 否,需要先安装MRS 3.2.0-LTS.1.8补丁,安装完需要重启相关服务,具体请参考MRS 3.2.0-LTS.1.8版本补丁说明。
  • 安装补丁过程中对现行系统的影响 安装补丁过程中会重启 OMS ,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS Manager上正在运行的任务,升级前请确认已经关闭弹性伸缩,并且MRS Manager上没有正在运行的任务。 安装补丁过程中,不允许在作业管理页面提交作业。 安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法,重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。
  • 检查集群是否是使用密钥创建的集群 检查集群是否是使用密钥创建的集群。 是,需要先给集群安装MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz补丁,以支持密钥方式的root补丁特性。 软件包获取地址: 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京金融二:https://mrs-container1-patch-cn-north-219.10.187.142.61/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 西南-贵阳一:https://mrs-container1-patch-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 亚太-香港:https://mrs-container1-patch-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 亚太-新加坡:https://mrs-container1-patch-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 亚太-曼谷:https://mrs-container1-patch-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 华北-乌兰察布一:https://mrs-container1-patch-cn-north-9.obs.cn-north-9.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 俄罗斯-莫斯科二:https://mrs-container1-patch-ru-northwest-2.obs.ru-northwest-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 非洲-约翰内斯堡:https://mrs-container1-patch-af-south-1.obs.af-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 拉美-圣地亚哥:https://mrs-container1-patch-la-south-2.obs.la-south-2.myhuaweicloud.com/MRS_Common_Script/MRS_3.2.0-LTS.1.9_RootPatch_20240605.tar.gz 安装指导:解压软件包后,获取README.txt并参考指导进行操作。 否,跳过此步骤。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。 如果任务失败,选择“重试卸载”,只有当“状态”显示为“可用”时,才能进入下一步操作。 卸载失败或者重试后仍然失败,不能直接再点安装,请联系运维人员。
  • 安装补丁的影响 安装补丁后需要重启服务才能生效,重启服务期间引起服务暂不可用。 安装补丁后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.5 发布时间 2020-05-27 解决的问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.5补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.7.1.3 发布时间 2018-09-18 解决的问题 MRS Manager MRS Manager新增运维通道功能。 MRS Manager单击审计日志详细信息下载报错。 MRS Manager界面中主机列表下的磁盘使用率计算优化。 Kafka组件问题 KAFKA-5413 Kafka日志清理失败:segment文件offset跨度过大。 KAFKA-6529 客户端异常断开场景,Broker内存泄露。 KAFKA-5417 并发场景下,客户端连接状态不一致。 Hbase问题 HBase解决每次执行balance命令,重复计算region location的问题。 补丁兼容关系 包含1.7.1.3及之前发布的所有补丁解决的问题。
  • 安装补丁的影响 安装MRS 2.1.0.1补丁期间会重启MRS Manager和Hive服务,重启服务期间会引起服务暂时不可用。 MRS 2.1.0.1补丁安装完成后,需要先登录到MRS集群的Master1节点,删除HDFS上任务目录。 未开启Kerberos认证的集群,执行如下命令删除HDFS上任务目录。 hdfs dfs -rm -r /mrs/mrsjob/hive 开启Kerberos认证的集群,按如下操作删除HDFS上任务目录。 执行如下命令,并输入密码进行认证。 kinit hdfs 执行如下命令,删除HDFS上任务目录。 hdfs dfs -rm -r /mrs/mrsjob/hive 新建的MRS集群不用执行此步骤,因为hdfs上还没有这个目录。
  • 注意事项 由于1.7.1 集群的健康检查中存在一项误报,而补丁安装前会进行集群的健康检查。从而导致客户第一次提交安装补丁后,提示集群异常,补丁安装终止。在确认报错是误报后,客户可以再次提交安装补丁请求,第二次安装补丁会跳过健康检查,进行补丁安装。 误报内容可以通过如下方式确认: 查看并导出健康检查报告,健康检查结果上只存在这两个主机报错:“安装目录及数据目录检查: 目录下文件异常. 请检查安装目录和数据目录下的内容”。 图1 健康检查的结果
  • 通过Manager查看与清除告警(MRS 2.x及之前版本) 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 通过管理控制台查看与清除告警 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“全部导出”,在弹框内选择“保存类型”,单击“确定”可导出告警。 表1 告警信息说明 参数 参数说明 告警ID 告警的ID。 告警名 告警的名称。 级别 告警级别。 MRS 3.x之前版本集群告警级别为: 致命 指集群服务不可用,节点故障、 GaussDB 主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 严重 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 MRS 3.x及之后版本集群告警级别为: 紧急 指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 重要 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 次要 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 生成时间 产生告警的时间。 定位信息 告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 查看MRS集群运行状态 登录MRS管理控制台。 选择“现有集群”,进入集群列表页面。 集群列表默认按创建时间顺序排列,集群列表参数说明如表1所示。 现有集群:包括除了“失败”和“已删除”状态以外的所有集群。 历史集群:仅包含“已删除”的集群,目前界面只显示6个月内创建且已删除的集群,若需要查看6个月以前删除的集群,请联系华为云支持人员。 失败任务管理:单击可查看“失败”状态的集群创建任务。 表1 集群列表参数 参数 参数说明 名称/ID 集群的名称,创建集群时设置。集群的ID是集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 :修改集群名称。 :复制集群ID。 集群版本 集群的版本号。 集群类型 显示创建集群的类型。 节点数 集群部署的节点个数,创建集群时设置。 状态 集群运行状态及变更状态信息,集群运行状态说明请参考表2。 创建集群进度包括: Verifying cluster parameters:校验集群参数中 Applying for cluster resources:申请集群资源中 Creating VMs:创建虚拟机中 Initializing VMs:初始化虚拟机中 Installing MRS Manager:安装MRS Manager中 Deploying the cluster:部署集群中 Cluster installation failed:集群安装失败 扩容集群进度包括: Preparing for cluster expansion:准备扩容中 Creating VM:创建虚拟机中 Initializing VM:初始化虚拟机中 Adding node to the cluster:节点加入集群中 Cluster expansion failed:集群扩容失败 缩容集群进度包括: Preparing for cluster shrink:正在准备缩容 Decommissioning instance:实例退服中 Deleting VM:删除虚拟机中 Deleting node from the cluster:从集群删除节点中 Cluster shrink failed:集群缩容失败 集群安装、扩容、缩容失败,会显示失败的原因,详情请参见表6。 计费类型 目前MRS商用收费基本要素为集群中的弹性云服务器。 包年/包月:根据集群购买时长,一次性支付集群费用。最短时长为1个月,最长时长为1年。 按需计费:节点按实际使用时长计费,计费周期为一小时。 计费类型下方显示购买的集群启动成功的时间,即计费开始时间。 创建时间 集群节点创建成功时间。仅“历史集群”会显示此参数。 删除时间 集群节点计费停止时间,也是集群节点开始删除时间。仅“历史集群”会显示此参数。 可用区 集群工作区域下的可用区,创建集群时设置。 企业项目 集群所属的企业项目。 表2 MRS集群运行状态说明 状态 说明 启动中 集群正在创建,则其状态为“启动中”。 运行中 集群创建成功且运行正常,则其状态为“运行中”。 扩容中 集群Master节点、Core节点或者Task节点正在扩容,则其状态为“扩容中”。 缩容中 当对集群节点进行缩容、弹性缩容、包周期集群退订节点、变更OS和重装OS的操作时,被变更的集群节点正在删除,则其状态为“缩容中”。 异常 集群中部分组件状态异常,导致集群异常,则其状态为“异常”。 删除中 在集群现有列表单击“删除”按钮并确认后,按需购买的集群节点正在删除中,则集群状态为“删除中”。 冻结 包年/包月资源宽限期到期未续费、按需资源扣费失败且在宽限期到期前未充值,系统会冻结这些资源,其状态为“冻结”。本文提及的冻结一般指欠费冻结,其他冻结场景请参见资源冻结的类型有哪些?。 说明: 冻结期间集群不可用且关闭集群中所有云主机,解冻后集群自动恢复为“运行中”状态。如果用户没有续费,冻结期限到期后集群会被删除,状态更新为“已删除” 故障节点修复中 集群中故障的节点正在修复,则其状态为“故障节点修复中”。
  • 告警解释 HDFS的元数据信息存储在NameNode数据目录(由配置项“dfs.namenode.name.dir”指定)中的FsImage文件中。备NameNode会周期将已有的FsImage和JournalNode中存储的Editlog合并生成新的FsImage,然后推送到主NameNode的数据目录。这个周期由HDFS的配置项“dfs.namenode.checkpoint.period”指定,默认为3600秒,即1个小时。如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。 在主NameNode节点上,系统每5分钟检测其上的FsImage文件的信息。如果在三个合并周期没有新的FsImage文件生成,则系统产生该告警。 当新的FsImage文件生成并成功推送到主NameNode,说明HDFS元数据合并功能恢复正常,告警自动恢复。
  • 对系统的影响 如果IO持续飙高,会对业务操作产生影响导致业务受损,具体可能会产生如下影响: 系统性能下降:卡IO会导致系统I/O性能下降,从而影响系统的响应速度和吞吐量。这可能会导致客户的业务运行变慢(例如:作业提交运行变慢、页面响应迟钝、接口响应超时等),甚至出现崩溃或错误。 系统故障:卡IO可能会导致系统故障,从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息,可能会导致系统崩溃或数据丢失。
  • 参考信息 相关参数获取及计算方法如下: 在操作系统中执行以下命令采集数据: iostat -x -t 1 1 其中: “avgqu-sz”为磁盘队列深度。 “r/s”和“w/s”之和为“iops”。 “rkB/s”和“wkB/s”之和为带宽。 “%util”为“ioutil”。 MRS 3.1.0版本: 在操作系统中执行iostat -x -t获取: MRS 3.1.0之后版本svctm的计算方法为: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 针对MRS 3.3.0之前版本:如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 针对MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 当检测周期粒度为30s时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 。 当检测周期粒度为300s时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • 告警解释 系统每5分钟周期性检测omm用户CGroup任务数使用情况,当CGroup任务使用率超过90%时产生该告警,当使用率小于或等于90%时,告警恢复。 CGroup任务使用率 = CGroup任务使用数 / 最大CGroup任务数。 可以在omm用户下,执行systemctl status user-$(id -u).slice | grep limit | awk -F ' ' '{print $2}'命令,获取当前omm用户CGroup任务使用数;执行echo $(systemctl status user-$(id -u).slice | grep limit | awk -F ' ' '{print $4}') | sed -e 's/)//g'获取omm用户最大CGroup任务数。
  • 对系统的影响 数据传输异常:如果网络互通异常,数据的传输会变得缓慢或者中断,导致数据丢失或者传输不完整。 任务调度异常:如果网络互通异常,任务调度会受到影响,例如会导致Yarn任务无法正常执行或者执行超时失败。 数据处理异常:如果网络互通异常,数据处理会受到影响,例如会导致HDFS数据同步失败或者结果不准确。 系统性能下降:大数据集群之间的网络互通异常会导致系统性能下降,影响整个数据处理的效率和质量。
  • 处理步骤 以下解析查看core文件堆栈信息的操作有可能会涉及到用户的敏感数据,开发或运维人员必须在获得用户授权的情况下才能进行操作。 告警所产生的core文件系统默认保留72小时,文件保存超时或者大小超过设定值后会被系统自动清除。如果产生该告警,请尽快联系运维人员进行处理。 打开 FusionInsight Manager页面,在告警列表中,单击此告警所在行,在告警详情中查看该告警的主机地址,通过附加信息中的“DumpedFilePath”属性查看产生的core文件的存放路径。 以omm用户登录产生告警的主机,执行gdb --version命令查看该主机是否安装有gdb工具: 否,请先安装gdb工具,再执行3。 是,执行3。 使用gdb工具查看core文件的详细堆栈信息: 进入“DumpedFilePath”目录,找到core文件。 执行如下命令获取core文件符号表: source $BIGDATA_HOME/mppdb/.mppdbgs_profile cd ${BIGDATA_HOME}/FusionInsight_MPPDB_XXX/install/FusionInsight-MPPDB-XXX/package/MPPDB_ALL_PACKAGE tar -xzvf GaussDB-Kernel-V300R002C00-操作系统-64bit-symbol.tar.gz cd symbols/bin/ 找到与告警中进程名称相同的符号表文件,如“cm_agent”对应的符号表为“cm_agent.symbol”。 将找到的符号表复制至“${GAUSSHOME}/bin”目录下。 使用gdb --batch -n -ex thread -ex bt core文件名称命令查看core文件详细堆栈信息。 请联系运维人员,并发送已收集的故障日志信息。
  • 对系统的影响 AZ的健康状态由AZ内的存储资源(HDFS)、计算资源(Yarn)和关键角色的健康度是否超过配置阈值决定。 AZ亚健康有两种: 计算资源(Yarn)不健康,存储资源(HDFS)健康,任务无法提交到本AZ,但是数据可以继续往本AZ内读写。 计算资源(Yarn)健康,存储资源(HDFS)部分不健康,任务可以提交到本AZ,部分数据可以在本AZ内读写,依赖于Spark/Hive调度感知数据的本地性。 AZ不健康有三种: 计算资源(Yarn)健康,存储资源(HDFS)不健康,任务虽然可以提交到本AZ,但是数据无法在本AZ内读写,导致任务提交到本AZ无意义。 计算资源(Yarn)不健康,存储资源(HDFS)不健康,任务无法提交到本AZ,数据也无法往本AZ内读写。 除Yarn与HDFS以外,关键角色的健康度低于配置阈值。
  • 参考信息 节点互信异常处理方法如下: 本操作需使用omm用户执行。 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否在同一个安全组,是否有设置hosts.deny、hosts.allow 等。 在两端节点执行ssh-add -l 确认是否有identities信息。 是,执行4。 否,执行2。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。 检查“/home/omm/.ssh”目录下的文件权限是否被修改。 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。 如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。
  • 告警解释 系统每30秒周期性检测omm进程使用情况,执行ps -o nlwp,pid,args, -u omm | awk '{sum+=$1} END {print "", sum}'命令,获取当前omm用户并发的所有进程数,在omm用户下,执行ulimit -u,获取omm用户可以同时打开的进程最大数。 结果相除,获取到对应的omm用户进程使用率。进程使用率默认提供一个阈值范围。当检测到进程使用率超出阈值范围时产生该告警。 平滑次数为3,进程使用率小于或等于阈值时,告警恢复;如果当前平滑次数大于1,进程使用率小于或等于阈值的90%时,告警恢复。
  • 通过包年/包月方式重购的WAF与原WAF在同一区域 原WAF上的配置数据可以保存24小时。 退订WAF后,WAF将暂停防护 域名 。当您重新购买WAF后,您只需要为域名开启防护,即将域名的“工作模式”切换为“开启防护”。开启防护后,WAF会根据域名在原WAF上配置的防护对域名进行防护。 有关退订WAF的详细操作,请参见如何退订 Web应用防火墙 ?。 有关购买WAF的详细操作,请参见购买Web应用防火墙。 有关开启WAF防护的详细操作,请参见切换工作模式。 退订WAF后请您在24小时内重新购买WAF,以免原WAF上的配置数据失效。
  • 计费场景 某用户于2023/05/01 15:50:00购买了Web应用防火墙云模式的专业版,并分别购买了一个域名扩展包、QPS扩展包和规则扩展包。购买时长为一个月,一个月后又手动续费了一个月。 该用户在6月时,需要通过WAF防护一个网站(业务服务器部署在华为云),且该网站只能通过IP接入WAF。因为云模式无法通过IP接入WAF,因此,该用户于2023/06/08 8:00:00购买了2个WAF独享引擎实例,并在当天18:00:00删除了实例,规格配置如下: WAF实例数量:2个 WAF实例规格:WI-100 那么,5~6月份,总共产生多少费用呢?
  • 包年/包月资源 对于包年/包月计费模式的资源,例如,包年/包月的WAF云模式版本,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的账户。详细的退订规则请参见云服务退订规则概览。 如果您已开启自动续费功能,为避免继续产生费用,请在自动续费扣款日(默认为到期前7日)之前关闭自动续费。
  • 续费相关功能 包年/包月WAF续费相关的功能如表1所示: 表1 续费相关的功能 功能 说明 手动续费 包年/包月WAF从购买到被自动删除之前,您可以随时在WAF控制台为WAF续费,以延长WAF的使用时间。 自动续费 开通自动续费后,WAF会在每次到期前自动续费,避免因忘记手动续费而导致资源被自动删除。 在包年/包月WAF生命周期的不同阶段,您可以根据需要选择一种方式进行续费,具体如图1所示。 图1 WAF生命周期 WAF从购买到到期前,处于正常运行阶段,“工作模式”为“开启防护”。 到期未续费时,WAF首先会进入宽限期。 超过宽限期仍未续费将进入保留期,如果保留期内仍未续费,资源将被自动删除。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 在WAF到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至WAF到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全