云服务器内容精选

  • 通过管理控制台查看组件状态 登录 MRS 管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在MRS集群详情页面,单击“组件管理”,可查看服务操作状态、服务健康状态和服务配置状态等信息。 图1 查看集群组件状态 表1 管理控制台组件状态说明 指标项 状态 描述 操作状态 已启动 服务已启动。 已停止 服务已停止。 启动失败 用户启动操作失败。 停止失败 用户停止操作失败。 未知 后台系统重启后,服务的初始状态。 健康状态 良好 该服务中所有角色实例正常运行。 故障 至少一个角色实例运行状态为“故障”或被依赖的服务状态不正常。 服务的运行状态为“故障”,会触发告警,请根据告警信息处理。 未知 该服务中所有角色实例状态为“未知”。 正在恢复 后台系统正在尝试自动启动服务。 亚健康 该服务所依赖的服务状态不正常,异常服务的相关接口无法被外部调用。 HBase、Hive、Spark和Loader组件可显示“亚健康”(Subhealthy)状态。 Yarn已安装且不正常时,HBase处于“亚健康”状态。 HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。 配置状态 已同步 系统中最新的配置信息已生效。 配置超期 参数修改后,最新的配置未生效,需重启相应服务生效最新配置信息。 配置失败 参数配置过程中出现通信或读写异常,可尝试使用“同步配置”恢复。 配置中 参数配置进行中。 未知 无法获取当前配置状态。 单击组件名称,进入组件详情页面,可查看该组件的详细运行信息。 图2 查看集群组件详情 单击“实例”,可查看服务内各角色实例的详细运行信息。 角色实例列表包含了该服务中所有的角色在集群中的实例情况,列表可显示每个实例的运行状态、配置状态、实例对应的主机以及相关的IP地址信息等。 单击实例名称可继续进入实例详情页面,可查看实例基本信息、配置文件、实例日志以及该实例相关的监控指标图表。 图3 查看集群组件实例状态 表2 管理控制台实例状态说明 指标项 状态 描述 运行状态 良好 表示实例当前运行正常。 故障 表示实例当前无法正常工作。 已退服 表示实例处于退服状态。 未启动 表示实例已停止。 未知 表示实例的初始状态信息无法检测。 正在启动 表示实例正在执行启动过程。 正在停止 表示实例正在执行停止过程。 正在恢复 表示实例可能存在异常正在自动修复。 正在退服 表示实例正在执行退服过程。 正在入服 表示实例正在执行入服过程。 启动失败 表示实例启动操作失败。 停止失败 表示实例停止操作失败。 配置状态 已同步 系统中最新的配置信息已生效。 配置超期 参数修改后,最新的配置未生效,需重启相应服务生效最新配置信息。 配置失败 参数配置过程中出现通信或读写异常,尝试使用“同步配置”恢复。 配置中 参数配置进行中。 未知 无法获取当前配置状态。
  • 前提条件 如果通过MRS管理控制台操作,需要已完成 IAM 用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 如果当前退服DataNode节点,退服前需要进行健康检查,步骤如下。 使用客户端用户登录客户端安装节点,并切换到客户端安装目录。 如果是安全集群,需要使用hdfs用户进行权限认证。 source bigdata_env #配置客户端环境变量 kinit hdfs #设置kinit认证 Password for hdfs@HADOOP.COM: #输入hdfs用户登录密码 执行hdfs fsck / -list-corruptfileblocks,检查返回结果。 如果结果为“...has 0 CORRUPT files”表示健康检查成功。 如果结果不是“...has 0 CORRUPT files”,并返回损坏的文件名称,请执行以下操作删除损坏的文件。 hdfs dfs -rm 损坏的文件名称 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。
  • 约束和限制 已经退服的角色实例,必须执行入服操作启动该实例,才能重新使用。 ClickHouseServer实例退服约束条件请参考缩容ClickHouseServer约束限制。 DataNode入服退服: 默认情况下,当DataNode数量少于或等于HDFS的副本数时,不能执行退服操作。若HDFS副本数为3时,则系统中少于4个DataNode,将无法执行退服,Manager在执行退服操作时会等待30分钟后报错并退出执行。 针对MRS 3.3.0及之后版本集群,用户也可以在DataNode退服前,开启快速退服功能,此时当DataNode数量满足“dfs.namenode.decommission.force.replication.min”参数设置的值时,可以执行退服,系统将同时执行退服和添加HDFS副本数的操作。快速退服期间如果有写入数据操作,可能导致数据丢失,请谨慎操作。快速退服相关参数如下,可以在Manager界面的HDFS服务参数全部配置页面搜索查看: dfs.namenode.decommission.force.enabled:是否开启DataNode快速退服特性。设置为“true”表示开启。 dfs.namenode.decommission.force.replication.min:DataNode快速退服特性场景下,Block满足退服条件的最小可用副本数量。取值范围1~3。 由于MapReduce任务执行时,会生成一些副本数为10的文件,此时若DataNode实例数少于10时,将无法进行退服操作。 如果退服前,DataNode节点的机架数(机架数由各DataNode节点所配置的“机架”的名称数量决定)大于1;而退服部分DataNode后,剩余的DataNode节点的机架数变为1,则此次退服将会失败。所以需要在退服前评估退服操作对机架数的影响,以调整退服的DataNode节点。 在退服多个DataNode时,如果每个DataNode存储的数据量较大,如果执行选择多个DataNode同时退服,则很有可能会因超时而退服失败。为了避免这种情况,建议每次退服仅退服1个DataNode,进行多次退服操作。 当IoTDBServer数量少于等于集群配置的Region副本数(默认值为“3”)时,不能执行退服操作。
  • 前提条件 需要在IAM 用户所属的用户组中,设置用户组的权限。 由于在集群上添加服务和删除服务属于高危操作,因此需要给该用户组绑定MRS FullAccess、MRS Administrator、Server Administrator 、Tenant Guest和MRS Administrator或Tenant Administrator任意一个策略才可以执行。 具体权限说明请参见IAM用户同步MRS集群说明。 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
  • 通过管理控制台修改实例参数 登录MRS管理控制台,单击待操作的集群名称。 在集群详情页,单击“组件管理”。 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”页签。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,根据界面提示保存配置。
  • 使用限制 请在低业务负载时间段进行滚动重启操作。 在滚动重启Kafka服务时, 如果Kafka服务业务吞吐量很高(100MB/s以上的情况下),会出现Kafka服务滚动重启失败的情况。 在滚动重启HBase服务时候,如果原生界面上每个RegionServer上每秒的请求数超过10000,需要增大handle数来预防重启过程中负载过大导致的RegionServer重启失败。 重启前需要观察当前HBase的负载请求数(原生界面上每个RegionServer的请求数如果超过10000,需要增大handle数来预防超出负载)。 在集群Core节点个数小于6个的情况下,可能会出现业务短时间受影响的情况。 请优先使用滚动重启操作来重启实例或服务,并勾选“仅重启配置过期的实例”。
  • 组件重启参考信息 当前MRS集群中,服务和实例是否支持滚动重启如表2所示。 表2 服务和实例是否支持滚动重启 服务 实例 是否支持滚动重启 Alluxio AlluxioJobMaster 是 AlluxioMaster ClickHouse ClickHouseServer 是 ClickHouseBalancer CDL CDLConnector 是 CDLService Flink FlinkResource 否 FlinkServer Flume Flume 是 MonitorServer Guardian TokenServer 是 HBase HMaster 是 RegionServer ThriftServer RESTServer HetuEngine HSBroker 是 HSConsole HSFabric QAS HDFS NameNode 是 Zkfc JournalNode HttpFS DataNode Hive MetaStore 是 WebHCat HiveServer Hue Hue 否 Impala Impalad 否 StateStore Catalog IoTDB IoTDBServer 是 Kafka Broker 是 KafkaUI 否 Kudu KuduTserver 是 KuduMaster Loader Sqoop 否 Mapreduce JobHistoryServer 是 Oozie oozie 否 Presto Coordinator 是 Worker Ranger RangerAdmin 是 UserSync TagSync Spark JobHistory 是 JD BCS erver SparkResource Storm Nimbus 是 UI Supervisor Logviewer Tez TezUI 否 Yarn ResourceManager 是 NodeManager ZooKeeper Quorumpeer 是 实例启动时长如表3所示: 表3 重启时长参考 服务名称 重启时长 启动时长 附加说明 IoTDB 3min IoTDBServer:3min - CDL 2min CDLConnector:1min CDLService:1min - ClickHouse 4min ClickHouseServer:2min ClickHouseBalancer:2min - HDFS 10min+x NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10分钟。 由于受DataNode数据块上报影响启动时间有一定浮动。 Yarn 5min+x ResourceManager:3min+x NodeManager:2min x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟。 Mapreduce 2min+x JobHistoryServer:2min+x x为历史任务扫描时长,每10万任务大约2.5分钟。 ZooKeeper 2min+x quorumpeer:2min+x x为加载znode节点时长,每100万znode大约1分钟。 Hive 3.5min HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整体服务:3min - Spark2x 5min JobHistory2x:5min SparkResource2x:5min JDB CS erver2x:5min - Flink 4min FlinkResource:1min FlinkServer:3min - Kafka 2min+x Broker:1min+x KafkaUI:5 min x为数据恢复时长,单实例20000 partition启动所需时长大约2分钟。 Storm 6min Nimbus:3mins UI:1min Supervisor:1min Logviewer:1min - Flume 3min Flume:2 min MonitorServer:1min - Doris 2分钟 FE:1min BE:1min DBroker:1min -
  • 通过管理控制台添加自定义参数 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页,单击“组件管理”。 单击服务列表中指定的服务名称。 单击“服务配置”。 将页面右侧“基础配置”切换为“全部配置”。 图1 全部配置 在左侧导航栏定位到某个一级节点,并选择“自定义”,MRS将显示当前组件的自定义参数。 自定义参数支持服务级别与角色级别,请根据业务实际需要选择。 不支持单个角色实例添加自定义参数。 “参数文件”显示保存用户新添加的自定义参数的配置文件。每个配置文件中可能支持相同名称的开源参数,设置不同参数值后生效结果由组件加载配置文件的顺序决定。 根据配置文件与参数作用,在对应参数项所在行“参数”列输入组件支持的参数名,在“值”列输入此参数的参数值。 支持单击或,增加或删除一条自定义参数。第一次单击添加自定义参数后才支持删除操作。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,根据界面提示保存配置。