云服务器内容精选

  • 概述 账号管理为用户提供针对华为云E CS 、RDS、中间件等资源实例的人机帐号密码集中管理能力。多种帐号进行统一收口,避免多资源帐号密码易遗忘、多人知晓密码信息易泄漏等风险,用户可通过帐号管理来获取主机密码,在安全管控下支持无需输入密码可登录linux主机执行命令。账号密码管理、自动改密和免密登录操作如下。 账号密码管理场景步骤: 导入账号、查看账号密码。 自动改密及免密登录场景步骤: 当前已有资源可自动改密:账号管理-账号基线中配置账号基线。 后续新增资源的自动改密:账号管理-改密策略中配置改密策略。 按照region维度定期改密:账号管理-改密任务添加region。 配置后可查看账号密码、免密登录。 自动改密当前支持的区域如下: 华北-北京一 华东-上海二 华东-上海一 华南-广州 亚太-新加坡 亚太-曼谷 非洲-约翰内斯堡 华北-乌兰察布一 西南-贵阳一 华北-北京二 华北-乌兰察布-汽车一 华北-北京四 中国-香港 华北-乌兰察布二零一 拉美-圣地亚哥 父主题: 账号管理
  • 操作场景 根据业务需要,您可以通过云运维中心进行策略设置,确保您新增的主机实例也能被定期改密。 改密策略分为全局基线和组件基线。 全局基线改密策略:开启全局维度的改密策略后,所有未绑定组件的增量主机实例将会被定期改密。 组件基线改密策略:开启组件维度的改密策略后,所有被选中的组件下的增量主机实例将会被定期改密。 若需设置部分主机不参与自动改密,请前往“资源管理>应用资源管理”页面标签管理,设置标签键=COCAccountPasswordAutoManagement,标签值=NotManagePassword。设置后,预计1小时内生效 。
  • COC自定义策略样例 示例1:授权用户创建运维事务 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "coc:task:create" ] } ]} 示例2:拒绝用户删除文档 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予COC FullAccess的系统策略,但不希望用户拥有COC FullAccess中定义的删除文档的权限,您可以创建一条拒绝删除文档的自定义策略,然后同时将COC FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对COC执行除了删除文档外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Effect": "Deny", "Action": [ "coc:document:delete" ] } ]} 示例3:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务。多个授权语句策略描述如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "coc:document:create", "scm:cert:complete" ] } ]}
  • COC自定义策略样例 示例1:授权用户创建运维事务 { "Version": "5.0", "Statement": [ { "Effect": "Allow", "Action": [ "coc:task:create" ] } ]} 示例2:拒绝用户删除文档 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予COC FullAccessPolicy的系统策略,但不希望用户拥有COC FullAccessPolicy中定义的删除文档的权限,您可以创建一条拒绝删除文档的自定义策略,然后同时将COC FullAccessPolicy和拒绝策略授予用户,根据Deny优先原则,则用户可以对COC执行除了删除文档外的所有操作。拒绝策略示例如下: { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "coc:document:delete" ] } ]} 示例3:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务。多个授权语句策略描述如下: { "Version": "5.0", "Statement": [ { "Effect": "Allow", "Action": [ "coc:document:create", "scm:cert:complete" ] } ]}
  • 安全合规 安全合规包含补丁扫描数量统计和账号纳管数据统计(待实现)。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。 图7 安全合规 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 补丁管理 实例扫描统计 补丁管理/CMDB 租户账号下所有ECS,执行过补丁扫描和未执行过扫描的实例数量 未扫描实例=全量实例-扫描实例 区域、应用 个 实例合规性状态 补丁管理 已扫描过的实例中,合规的实例数量和不合规的实例数量 统计补丁管理中各合规性状态的实例数量 区域、应用 个 最近扫描时间 补丁管理 统计已扫描的实例,最近一次的扫描时间区间 统计已扫描的实例,最近一次的扫描时间区间 区域、应用 个 账号管理 纳管实例数量 账号管理 统计账号管理中,纳管的各云服务实例数量 统计账号管理中,纳管的各云服务实例数量 区域、应用 个 纳管率 账号管理 统计所有实例中,纳管的各云服务实例数量占比 纳管率=已纳管数量/实例总数*100% 区域、应用 百分比 纳管实例统计 账号管理 按照时间周期,呈现实例纳管的趋势情况 按照时间周期,呈现实例纳管的趋势情况 区域、应用 -
  • 监控告警 监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4。 图6 监控告警 表4 监控告警数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 告警分析 告警总量 告警管理 统计所有告警的数量 选择时间范围内,所有告警的数量 天/月 个 告警级别 告警管理 统计各个级别的告警的数量 选择时间范围内,各个级别的告警的数量 天/月 个 告警趋势 告警管理 选择时间范围内,各级别告警的数量趋势变化 选择时间范围内,各个级别的告警的数量 天/月 个 告警成本 告警参与人数 告警管理 统计参与处理告警的人数 去重计算集成告警的责任人数量 天/月 人 人均告警处理量 告警管理 统计人均处理的告警数量 选择时间范围内,告警总数量/告警参与人数 天/月 人 告警自动化处理率 告警管理 统计告警的自动化处理情况 选择时间范围内,自动化处理告警/告警总数*100% 天/月 百分比 告警质量 故障告警发现率 事件管理 统计所有事件单中,由告警发现的事件单数量 选择时间范围内,告警转事件单数量/事件单总数量*100% 天/月 百分比 WarRoom告警发现率 WarRoom 统计所有WarRoom中,由告警发现的WarRoom数量 选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom 总数量*100% 天/月 百分比 告警冒泡 告警冒泡 告警管理 按照应用维度,展示告警的风险冒泡情况 按照应用下告警的级别和数量进行加权计算并排序 天/月 不涉及
  • SLO看板 SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表5。 图8 SLO看板 表5 SLO看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 SLO总体达成情况 年度SLO期望值 SLO管理 全年度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 年 百分比 年度SLO实际值 SLO管理 全年度应用实际达成的SLO情况 年度SLO实际值=1-(年度应用不可用时长/全年应用总时长)*100%; 单个区域多应用SLO实际值=avg(年度SLO实际值); 多个区域单应用SLO实际值=min(年度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); 天/月 百分比 未达标应用数量 SLO管理 统计未达标SLO目标的应用数量 统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标 天/月 个 月度SLO期望值 SLO管理 月度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 天/月 百分比 月度SLO实际值 SLO管理 月度应用实际达成的SLO情况 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 单个区域多应用SLO实际值=avg(月度SLO实际值); 多个区域单应用SLO实际值=min(月度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); 天/月 百分比 应用维度SLO统计 应用SLO统计 SLO管理 统计应用维度的SLO情况 按照应用维度,展示月度SLO实际值; 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 多个区域单应用SLO实际值=min(月度SLO实际值); 天/月 百分比 Error Budget Error Budget SLO管理 用于测量实际性能与预期性能之间的差异,用于计算错误成本 当SLO实际值>SLO期望值时: ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min); 当SLO实际值≤SLO期望值时,ErrorBudget=0; 天/月 分钟
  • PRR看板 PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表6。 图9 PRR看板 表6 PRR看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 PRR评审汇总 评审服务 PRR评审 统计参与PRR评审的服务数量 选择时间范围内,所有参与PRR评审的去重服务数量 天/月 个 应用PRR评审列表 PRR评审 统计参与PRR各个阶段的应用数量与通过情况 选择时间范围内,参与PRR各个阶段的所有应用评审数量与通过情况分布(应用不去重) 天/月 个 评估雷达分布图 评估雷达分布 PRR评审 统计PRR不满足项的分布 选择时间范围内,各评审项中不满足的项目数量 天/月 个 服务复盘 服务复盘列表 PRR评审 统计需要复盘的服务总数以及通过情况 选择时间范围内,需要复盘的服务总数以及复盘通过分布情况 天/月 个 改进任务闭环情况 改进任务状态分布 PRR评审 统计改进任务数量以及状态分布 选择时间范围内,所有改进任务的数量以及状态分布情况 天/月 个 改进任务列表 PRR评审 统计各个维度的改进任务数量以及闭环情况 按照评审项目维度统计,各个维度的改进任务数量以及状态分布情况 天/月 个
  • 运维总览 运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。 图3 运维总览 表1 运维总览数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 总览数据 事件 事件中心 统计事件单的数量趋势 选择时间周期内,所有事件单的数量 天/月 个 告警 告警中心 统计汇聚告警的数量趋势 选择时间周期内,所有汇聚告警的数量 天/月 个 WarRoom WarRoom 统计WarRoom的数量趋势 选择时间周期内,所有WarRoom的数量 天/月 个 监控发现率 告警中心 发生的事件单中,有相关告警的事件单占比 符合过滤条件有相关告警的事件数/符合过滤条件总的事件数 天/月 百分比 变更 变更管理 统计变更单的数量趋势 选择时间周期内,所有变更单的数量 天/月 个 服务SLO SLO管理 统计服务SLO实际值的变化趋势 SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100% 天/月 百分比 风险冒泡 变更导致故障数 事件管理 统计变更问题引发事件单数量 事件类型为变更操作问题的事件单数量 天/月 个 7天紧急告警数 告警中心 统计近7天紧急告警数量 近7天的紧急告警数量 近7天 个 P3+事件 事件管理 统计发生的P3+事件单数量 P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单 天/月 个 Warroom 告警中心 统计Warroom数量 选择时间周期内,WarRoom的数量 天/月 个 PRR评审汇总 PRR评审服务 PRR评审 统计参与PRR评审的应用数量 参与PRR评审的应用数量 天/月 个 PRR评审通过情况 PRR评审 统计在PRR各阶段中,通过与未通过的服务数量 PRR各阶段,通过与未通过的服务数量 天/月 个 TOP5故障 TOP5故障 事件管理 统计严重性最高的事件Top5 根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件 天/月 事件信息
  • 故障管理 故障管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。 图5 故障管理 表3 事件管理数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 事件统计 事件总量 事件管理 统计所有事件单数量 选择时间范围内,所有事件单的数量 天/月 个 事件级别 事件管理 统计各个类型和级别的事件单的数量 选择时间范围内,各个类型和级别的事件单的数量 天/月 个 事件闭环率 事件管理 统计事件单的闭环情况 选择时间范围内,闭环状态的事件单数量/事件单总量*100% 天/月 百分比 平均事件耗时 事件管理 统计事件单平均处理时长 已闭环事件单的处理时间求和/已闭环的事件单数量*100% 天/月 ddhhmm 受损应用 事件管理 统计事件单受损应用数量 去重计算事件单的受损应用数量(包含已删除应用) 天/月 个 WarRoom WarRoom WarRoom 统计所有WarRoom数量 选择时间范围内,所有WarRoom数量 天/月 个 事件级别 事件管理 WarRoom关联的事件单级别分布 统计WarRoom关联的各级别事件单的数量 天/月 个 受损应用 WarRoom 统计WarRoom中受损应用的数量 去重计算WarRoom的受损应用数量 天/月 个 平均处理时长 WarRoom 统计WarRoom平均处理时长 选择时间范围内,已关闭的WarRoom处理时间总和/已关闭WarRoom数量 天/月 ddhhmm 受理时间窗分布 WarRoom 统计WarRoom在各个时间窗内的拉起次数 统计各个时间窗范围内,WarRoom的拉起次数 天/月 个 问题改进 问题总数 问题管理 所有的问题单数量 统计时间周期内,所有的问题单数量 天/月 个 问题完成率 问题管理 统计问题单的闭环情况 闭环率=已完成问题单数量/问题单总量*100% 天/月 百分比 改进总数 改进管理 所有的改进单数量 统计时间周期内,所有的改进单数量 天/月 个 改进完成率 改进管理 统计改进单的闭环情况 闭环率=已完成改进单数量/改进单总量*100% 天/月 百分比
  • 操作场景 云运维中心提供运维态势感知的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。 预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 支持组织/委托管理员跨账号查看组织成员账号的运维态势,提供跨账号场景下的多区域、多应用数据汇聚能力。
  • 变更管理 变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2。 图4 变更管理 表2 变更管理数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 变更概览 变更总量 变更管理 统计的变更单的数量 选择时间周期内,已完成的变更单数量 天/月 个 变更成功率 变更管理 统计变更单的成功率情况 变更成功率=变更成功的变更单数量/已完成的变更单数量*100% 天/月 百分比 变更平均时长 变更管理 统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 自动化变更率 变更管理 所有变更单中,自动化变更的占比 自动化变更数量/所有变更单数量*100% 天/月 百分比 变更趋势 变更管理 变更成功和失败的数量以及变更成功率的趋势变化 变更成功和失败的数量以及变更成功率 天/月 个 变更开销 变更人力 变更管理 统计参与变更所需要的人数 变更人力=变更配合人+变更实施人 天/月 人次 变更时间 变更管理 统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 变更风险 变更导致的现网故障 变更管理 统计由于变更原因导致的现网各个级别的事件数量 选择时间范围内,各级别事件单类型为变更操作问题的数量 天/月 个 变更等级 变更管理 统计各个等级的变更单的数量 选择时间周期内,各个等级的变更单数量 天/月 个 变更方式 变更管理 统计各个方式(手动变更、自动化变更)的变更单数量 计算各个方式的变更单数量 天/月 个
  • 注意事项 当前只有弹性 云服务器ECS 的实例支持UniAgent的操作。 操作系统使用限制。 表1 UniAgent支持的Linux操作系统及版本 操作系统 版本 EulerOS 1.1 64bit 2.0 64bit CentOS 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit 7.7 64bit 7.8 64bit 7.9 64bit 8.0 64bit Ubuntu 16.04 server 64bit 18.04 server 64bit 20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本。
  • 前提条件 开通组织服务,请参见开通组织服务。 图1 开通组织服务 只有企业中心的企业主账号的权限才能创建组织,非企业账号不支持使用Organizations。 企业中心创建组织后,需要在Organizations重新授权,即可访问组织所有功能。 组织开通之后,跳转到组织管理页面,按照以下步骤创建组织: 1. 组织管理员需要创建一个组织,一个账号只能有一个组织; 2. 成员账号看不到除了控制面板外的东西; 3. 成员账号也必须是企业级账号; 授权COC为可信服务,请参见授权为可信服务。 图2 授权为可信服务 该账号为管理员或者委托管理员,如果不是请参照添加委托管理员章节的内容。 图3 添加委托管理员
  • 资源看板 登录云运维中心。 进入COC“总览”后,可以查看对应的资源信息。 图1 资源信息 默认展示全部区域的资源,您可以自定义筛选指定区域查看该区域下的资源。 图2 区域筛选 鼠标移动到云服务图标(云服务图标右上角红底数字代表告警数量)悬停,可以快速查看紧急/重要告警数量,以及资源实例的区域分布。 图3 鼠标悬停查看资源 单击云服务图标,可以查询对应资源类型的全部资源信息。 图4 查询资源信息 单击“查看详情”将会跳转至ECS云服务的实例基本信息页面。 图5 查看资源详情 单击资源名称左侧箭头可展开全部告警信息(来源于 CES ),单击告警规则名称将会跳转至CES对应的告警规则页面,单击“告警自动处理”将会打开COC执行响应预案页面,可快速处理告警。 图6 查看告警 单击右上角“刷新”按钮,可实时同步资源与告警信息。