云服务器内容精选

  • 前提条件 如果通过 MRS 管理控制台操作,需要已完成 IAM 用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 如果当前退服DataNode节点,退服前需要进行健康检查,步骤如下。 使用客户端用户登录客户端安装节点,并切换到客户端安装目录。 如果是安全集群,需要使用hdfs用户进行权限认证。 source bigdata_env #配置客户端环境变量 kinit hdfs #设置kinit认证 Password for hdfs@HADOOP.COM: #输入hdfs用户登录密码 执行hdfs fsck / -list-corruptfileblocks,检查返回结果。 如果结果为“...has 0 CORRUPT files”表示健康检查成功。 如果结果不是“...has 0 CORRUPT files”,并返回损坏的文件名称,请执行以下操作删除损坏的文件。 hdfs dfs -rm 损坏的文件名称 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。
  • 约束和限制 已经退服的角色实例,必须执行入服操作启动该实例,才能重新使用。 ClickHouseServer实例退服约束条件请参考缩容ClickHouseServer约束限制。 DataNode入服退服: 默认情况下,当DataNode数量少于或等于HDFS的副本数时,不能执行退服操作。若HDFS副本数为3时,则系统中少于4个DataNode,将无法执行退服,Manager在执行退服操作时会等待30分钟后报错并退出执行。 针对MRS 3.3.0及之后版本集群,用户也可以在DataNode退服前,开启快速退服功能,此时当DataNode数量满足“dfs.namenode.decommission.force.replication.min”参数设置的值时,可以执行退服,系统将同时执行退服和添加HDFS副本数的操作。快速退服期间如果有写入数据操作,可能导致数据丢失,请谨慎操作。快速退服相关参数如下,可以在Manager界面的HDFS服务参数全部配置页面搜索查看: dfs.namenode.decommission.force.enabled:是否开启DataNode快速退服特性。设置为“true”表示开启。 dfs.namenode.decommission.force.replication.min:DataNode快速退服特性场景下,Block满足退服条件的最小可用副本数量。取值范围1~3。 由于MapReduce任务执行时,会生成一些副本数为10的文件,此时若DataNode实例数少于10时,将无法进行退服操作。 如果退服前,DataNode节点的机架数(机架数由各DataNode节点所配置的“机架”的名称数量决定)大于1;而退服部分DataNode后,剩余的DataNode节点的机架数变为1,则此次退服将会失败。所以需要在退服前评估退服操作对机架数的影响,以调整退服的DataNode节点。 在退服多个DataNode时,如果每个DataNode存储的数据量较大,如果执行选择多个DataNode同时退服,则很有可能会因超时而退服失败。为了避免这种情况,建议每次退服仅退服1个DataNode,进行多次退服操作。 当IoTDBServer数量少于等于集群配置的Region副本数(默认值为“3”)时,不能执行退服操作。
  • 前提条件 需要在IAM 用户所属的用户组中,设置用户组的权限。 由于在集群上添加服务和删除服务属于高危操作,因此需要给该用户组绑定MRS FullAccess、MRS Administrator、Server Administrator 、Tenant Guest和MRS Administrator或Tenant Administrator任意一个策略才可以执行。 具体权限说明请参见IAM用户同步MRS集群说明。 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
  • 通过管理控制台修改实例参数 登录MRS管理控制台,单击待操作的集群名称。 在集群详情页,单击“组件管理”。 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”页签。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,根据界面提示保存配置。
  • 使用限制 请在低业务负载时间段进行滚动重启操作。 在滚动重启Kafka服务时, 如果Kafka服务业务吞吐量很高(100MB/s以上的情况下),会出现Kafka服务滚动重启失败的情况。 在滚动重启HBase服务时候,如果原生界面上每个RegionServer上每秒的请求数超过10000,需要增大handle数来预防重启过程中负载过大导致的RegionServer重启失败。 重启前需要观察当前HBase的负载请求数(原生界面上每个RegionServer的请求数如果超过10000,需要增大handle数来预防超出负载)。 在集群Core节点个数小于6个的情况下,可能会出现业务短时间受影响的情况。 请优先使用滚动重启操作来重启实例或服务,并勾选“仅重启配置过期的实例”。
  • 组件重启参考信息 当前MRS集群中,服务和实例是否支持滚动重启如表2所示。 表2 服务和实例是否支持滚动重启 服务 实例 是否支持滚动重启 Alluxio AlluxioJobMaster 是 AlluxioMaster ClickHouse ClickHouseServer 是 ClickHouseBalancer CDL CDLConnector 是 CDLService Flink FlinkResource 否 FlinkServer Flume Flume 是 MonitorServer Guardian TokenServer 是 HBase HMaster 是 RegionServer ThriftServer RESTServer HetuEngine HSBroker 是 HSConsole HSFabric QAS HDFS NameNode 是 Zkfc JournalNode HttpFS DataNode Hive MetaStore 是 WebHCat HiveServer Hue Hue 否 Impala Impalad 否 StateStore Catalog IoTDB IoTDBServer 是 Kafka Broker 是 KafkaUI 否 Kudu KuduTserver 是 KuduMaster Loader Sqoop 否 Mapreduce JobHistoryServer 是 Oozie oozie 否 Presto Coordinator 是 Worker Ranger RangerAdmin 是 UserSync TagSync Spark JobHistory 是 JD BCS erver SparkResource Storm Nimbus 是 UI Supervisor Logviewer Tez TezUI 否 Yarn ResourceManager 是 NodeManager ZooKeeper Quorumpeer 是 实例启动时长如表3所示: 表3 重启时长参考 服务名称 重启时长 启动时长 附加说明 IoTDB 3min IoTDBServer:3min - CDL 2min CDLConnector:1min CDLService:1min - ClickHouse 4min ClickHouseServer:2min ClickHouseBalancer:2min - HDFS 10min+x NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10分钟。 由于受DataNode数据块上报影响启动时间有一定浮动。 Yarn 5min+x ResourceManager:3min+x NodeManager:2min x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟。 Mapreduce 2min+x JobHistoryServer:2min+x x为历史任务扫描时长,每10万任务大约2.5分钟。 ZooKeeper 2min+x quorumpeer:2min+x x为加载znode节点时长,每100万znode大约1分钟。 Hive 3.5min HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整体服务:3min - Spark2x 5min JobHistory2x:5min SparkResource2x:5min JDB CS erver2x:5min - Flink 4min FlinkResource:1min FlinkServer:3min - Kafka 2min+x Broker:1min+x KafkaUI:5 min x为数据恢复时长,单实例20000 partition启动所需时长大约2分钟。 Storm 6min Nimbus:3mins UI:1min Supervisor:1min Logviewer:1min - Flume 3min Flume:2 min MonitorServer:1min - Doris 2分钟 FE:1min BE:1min DBroker:1min -
  • 通过管理控制台添加自定义参数 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页,单击“组件管理”。 单击服务列表中指定的服务名称。 单击“服务配置”。 将页面右侧“基础配置”切换为“全部配置”。 图1 全部配置 在左侧导航栏定位到某个一级节点,并选择“自定义”,MRS将显示当前组件的自定义参数。 自定义参数支持服务级别与角色级别,请根据业务实际需要选择。 不支持单个角色实例添加自定义参数。 “参数文件”显示保存用户新添加的自定义参数的配置文件。每个配置文件中可能支持相同名称的开源参数,设置不同参数值后生效结果由组件加载配置文件的顺序决定。 根据配置文件与参数作用,在对应参数项所在行“参数”列输入组件支持的参数名,在“值”列输入此参数的参数值。 支持单击或,增加或删除一条自定义参数。第一次单击添加自定义参数后才支持删除操作。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,根据界面提示保存配置。