云运维中心 COC-华为云

云运维中心 COC-概述

概述账号管理为用户提供针对华为云E CS 、RDS、中间件等资源实例的人机帐号密码集中管理能力。多种帐号进行统一收口，避免多资源帐号密码易遗忘、多人知晓密码信息易泄漏等风险，用户可通过帐号管理来获取主机密码，在安全管控下支持无需输入密码可登录linux主机执行命令。账号密码管理、自动改密和免密登录操作如下。账号密码管理场景步骤：导入账号、查看账号密码。自动改密及免密登录场景步骤：当前已有资源可自动改密：账号管理-账号基线中配置账号基线。后续新增资源的自动改密：账号管理-改密策略中配置改密策略。按照region维度定期改密：账号管理-改密任务添加region。配置后可查看账号密码、免密登录。自动改密当前支持的区域如下：华北-北京一华东-上海二华东-上海一华南-广州亚太-新加坡亚太-曼谷非洲-约翰内斯堡华北-乌兰察布一西南-贵阳一华北-北京二华北-乌兰察布-汽车一华北-北京四中国-香港华北-乌兰察布二零一拉美-圣地亚哥父主题：账号管理

云运维中心 COC

云运维中心 COC-改密策略:操作场景

操作场景根据业务需要，您可以通过云运维中心进行策略设置，确保您新增的主机实例也能被定期改密。改密策略分为全局基线和组件基线。全局基线改密策略：开启全局维度的改密策略后，所有未绑定组件的增量主机实例将会被定期改密。组件基线改密策略：开启组件维度的改密策略后，所有被选中的组件下的增量主机实例将会被定期改密。若需设置部分主机不参与自动改密，请前往“资源管理＞应用资源管理”页面标签管理，设置标签键=COCAccountPasswordAutoManagement，标签值=NotManagePassword。设置后，预计1小时内生效。

云运维中心 COC

云运维中心 COC-角色授权的示例:COC自定义策略样例

COC自定义策略样例示例1：授权用户创建运维事务 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "coc:task:create" ] } ]} 示例2：拒绝用户删除文档拒绝策略需要同时配合其他策略使用，否则没有实际作用。用户被授予的策略中，一个授权项的作用如果同时存在Allow和Deny，则遵循Deny优先。如果您给用户授予COC FullAccess的系统策略，但不希望用户拥有COC FullAccess中定义的删除文档的权限，您可以创建一条拒绝删除文档的自定义策略，然后同时将COC FullAccess和拒绝策略授予用户，根据Deny优先原则，则用户可以对COC执行除了删除文档外的所有操作。拒绝策略示例如下： { "Version": "1.1", "Statement": [ { "Effect": "Deny", "Action": [ "coc:document:delete" ] } ]} 示例3：多个授权项策略一个自定义策略中可以包含多个授权项，且除了可以包含本服务的授权项外，还可以包含其他服务的授权项，可以包含的其他服务必须跟本服务同属性，即都是项目级服务。多个授权语句策略描述如下： { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "coc:document:create", "scm:cert:complete" ] } ]}

云运维中心 COC

云运维中心 COC-策略授权的示例:COC自定义策略样例

COC自定义策略样例示例1：授权用户创建运维事务 { "Version": "5.0", "Statement": [ { "Effect": "Allow", "Action": [ "coc:task:create" ] } ]} 示例2：拒绝用户删除文档拒绝策略需要同时配合其他策略使用，否则没有实际作用。用户被授予的策略中，一个授权项的作用如果同时存在Allow和Deny，则遵循Deny优先。如果您给用户授予COC FullAccessPolicy的系统策略，但不希望用户拥有COC FullAccessPolicy中定义的删除文档的权限，您可以创建一条拒绝删除文档的自定义策略，然后同时将COC FullAccessPolicy和拒绝策略授予用户，根据Deny优先原则，则用户可以对COC执行除了删除文档外的所有操作。拒绝策略示例如下： { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "coc:document:delete" ] } ]} 示例3：多个授权项策略一个自定义策略中可以包含多个授权项，且除了可以包含本服务的授权项外，还可以包含其他服务的授权项，可以包含的其他服务必须跟本服务同属性，即都是项目级服务。多个授权语句策略描述如下： { "Version": "5.0", "Statement": [ { "Effect": "Allow", "Action": [ "coc:document:create", "scm:cert:complete" ] } ]}

云运维中心 COC

云运维中心 COC-运维态势感知:安全合规

安全合规安全合规包含补丁扫描数量统计和账号纳管数据统计（待实现）。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。图7 安全合规模块指标名称数据来源指标定义计算规则统计周期度量单位补丁管理实例扫描统计补丁管理/CMDB 租户账号下所有ECS，执行过补丁扫描和未执行过扫描的实例数量未扫描实例=全量实例-扫描实例区域、应用个实例合规性状态补丁管理已扫描过的实例中，合规的实例数量和不合规的实例数量统计补丁管理中各合规性状态的实例数量区域、应用个最近扫描时间补丁管理统计已扫描的实例，最近一次的扫描时间区间统计已扫描的实例，最近一次的扫描时间区间区域、应用个账号管理纳管实例数量账号管理统计账号管理中，纳管的各云服务实例数量统计账号管理中，纳管的各云服务实例数量区域、应用个纳管率账号管理统计所有实例中，纳管的各云服务实例数量占比纳管率=已纳管数量/实例总数*100% 区域、应用百分比纳管实例统计账号管理按照时间周期，呈现实例纳管的趋势情况按照时间周期，呈现实例纳管的趋势情况区域、应用 -

云运维中心 COC

云运维中心 COC-运维态势感知:监控告警

监控告警监控告警将告警信息以直观的图表形式展示，使运维人员快速掌握服务的整体状况，监控告警中含告警分析、告警成本、告警质量三个模块，体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标，运维主管可通过对历史告警数据的分析，了解服务告警的趋势和模式，发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率，运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率，帮助运维主管评估当前告警的有效性，并及时进行告警配置的优化。指标详情可查看表4。图6 监控告警表4 监控告警数据字典模块指标名称数据来源指标定义计算规则统计周期度量单位告警分析告警总量告警管理统计所有告警的数量选择时间范围内，所有告警的数量天/月个告警级别告警管理统计各个级别的告警的数量选择时间范围内，各个级别的告警的数量天/月个告警趋势告警管理选择时间范围内，各级别告警的数量趋势变化选择时间范围内，各个级别的告警的数量天/月个告警成本告警参与人数告警管理统计参与处理告警的人数去重计算集成告警的责任人数量天/月人人均告警处理量告警管理统计人均处理的告警数量选择时间范围内，告警总数量/告警参与人数天/月人告警自动化处理率告警管理统计告警的自动化处理情况选择时间范围内，自动化处理告警/告警总数*100% 天/月百分比告警质量故障告警发现率事件管理统计所有事件单中，由告警发现的事件单数量选择时间范围内，告警转事件单数量/事件单总数量*100% 天/月百分比 WarRoom告警发现率 WarRoom 统计所有WarRoom中，由告警发现的WarRoom数量选择时间范围内，告警转事件拉起的WarRoom数量/WarRoom 总数量*100% 天/月百分比告警冒泡告警冒泡告警管理按照应用维度，展示告警的风险冒泡情况按照应用下告警的级别和数量进行加权计算并排序天/月不涉及

云运维中心 COC

云运维中心 COC-运维态势感知:SLO看板

SLO看板 SlO看板（服务级别目标）包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况，评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况，评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本，用以指导变更或其他高风险操作。指标详情可查看表5。图8 SLO看板表5 SLO看板数据字典模块指标名称数据来源指标定义计算规则统计周期度量单位 SLO总体达成情况年度SLO期望值 SLO管理全年度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值；多个应用SLO期望值=avg（SLO期望值）；年百分比年度SLO实际值 SLO管理全年度应用实际达成的SLO情况年度SLO实际值=1-（年度应用不可用时长/全年应用总时长）*100%；单个区域多应用SLO实际值=avg（年度SLO实际值）；多个区域单应用SLO实际值=min（年度SLO实际值）；多个区域多应用SLO实际值=avg（多个区域单应用SLO实际值）；天/月百分比未达标应用数量 SLO管理统计未达标SLO目标的应用数量统计未达成SLO目标的应用数量，选择全部区域时，任一区域的年度SLO实际值＜年度SLO期望值，视为未达标天/月个月度SLO期望值 SLO管理月度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值；多个应用SLO期望值=avg（SLO期望值）；天/月百分比月度SLO实际值 SLO管理月度应用实际达成的SLO情况月度SLO实际值=1-（月度应用不可用时长/月度应用总时长）*100%；单个区域多应用SLO实际值=avg（月度SLO实际值）；多个区域单应用SLO实际值=min（月度SLO实际值）；多个区域多应用SLO实际值=avg（多个区域单应用SLO实际值）；天/月百分比应用维度SLO统计应用SLO统计 SLO管理统计应用维度的SLO情况按照应用维度，展示月度SLO实际值；月度SLO实际值=1-（月度应用不可用时长/月度应用总时长）*100%；多个区域单应用SLO实际值=min（月度SLO实际值）；天/月百分比 Error Budget Error Budget SLO管理用于测量实际性能与预期性能之间的差异，用于计算错误成本当SLO实际值＞SLO期望值时： ErrorBudget=（年度SLO实际值-年度SLO期望值）*全年服务总时长（min）；当SLO实际值≤SLO期望值时，ErrorBudget=0；天/月分钟

云运维中心 COC

云运维中心 COC-运维态势感知:PRR看板

PRR看板 PRR看板（生产就绪程度评审）中包含评审服务汇总、评估雷达分布、服务复盘、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段，以及通过情况。评估雷达中体现服务不满足的评审项分布。服务复盘和改进呈现对评审不满足项的整改情况。指标详情可查看表6。图9 PRR看板表6 PRR看板数据字典模块指标名称数据来源指标定义计算规则统计周期度量单位 PRR评审汇总评审服务 PRR评审统计参与PRR评审的服务数量选择时间范围内，所有参与PRR评审的去重服务数量天/月个应用PRR评审列表 PRR评审统计参与PRR各个阶段的应用数量与通过情况选择时间范围内，参与PRR各个阶段的所有应用评审数量与通过情况分布（应用不去重）天/月个评估雷达分布图评估雷达分布 PRR评审统计PRR不满足项的分布选择时间范围内，各评审项中不满足的项目数量天/月个服务复盘服务复盘列表 PRR评审统计需要复盘的服务总数以及通过情况选择时间范围内，需要复盘的服务总数以及复盘通过分布情况天/月个改进任务闭环情况改进任务状态分布 PRR评审统计改进任务数量以及状态分布选择时间范围内，所有改进任务的数量以及状态分布情况天/月个改进任务列表 PRR评审统计各个维度的改进任务数量以及闭环情况按照评审项目维度统计，各个维度的改进任务数量以及状态分布情况天/月个

云运维中心 COC

云运维中心 COC-运维态势感知:运维总览

运维总览运维总览包含总览数据、风险冒泡、PRR评审汇总（生产准备度评估）、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况，辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单，快速识别重大故障场景。指标详情可查看表1。图3 运维总览表1 运维总览数据字典模块指标名称数据来源指标定义计算规则统计周期度量单位总览数据事件事件中心统计事件单的数量趋势选择时间周期内，所有事件单的数量天/月个告警告警中心统计汇聚告警的数量趋势选择时间周期内，所有汇聚告警的数量天/月个 WarRoom WarRoom 统计WarRoom的数量趋势选择时间周期内，所有WarRoom的数量天/月个监控发现率告警中心发生的事件单中，有相关告警的事件单占比符合过滤条件有相关告警的事件数/符合过滤条件总的事件数天/月百分比变更变更管理统计变更单的数量趋势选择时间周期内，所有变更单的数量天/月个服务SLO SLO管理统计服务SLO实际值的变化趋势 SLO实际值 = 1 - （服务不可用时长 / 云服务总时长）*100% 天/月百分比风险冒泡变更导致故障数事件管理统计变更问题引发事件单数量事件类型为变更操作问题的事件单数量天/月个 7天紧急告警数告警中心统计近7天紧急告警数量近7天的紧急告警数量近7天个 P3+事件事件管理统计发生的P3+事件单数量 P1、P2、P3级别的所有事件单的数量，包括未完成状态的事件单天/月个 Warroom 告警中心统计Warroom数量选择时间周期内，WarRoom的数量天/月个 PRR评审汇总 PRR评审服务 PRR评审统计参与PRR评审的应用数量参与PRR评审的应用数量天/月个 PRR评审通过情况 PRR评审统计在PRR各阶段中，通过与未通过的服务数量 PRR各阶段，通过与未通过的服务数量天/月个 TOP5故障 TOP5故障事件管理统计严重性最高的事件Top5 根据选择时间范围，统计已完成的P3+事件，并先按事件级别排序，再按照中断时长排序，排列TOP5事件天/月事件信息

云运维中心 COC

云运维中心 COC-运维态势感知:故障管理

故障管理故障管理包含事件统计、WarRoom、回溯改进三个模块，呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标，通过环比、趋势图和Top /Bottom排序的方式，呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗，反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析，确保对于已发生的故障进行经验沉淀，减少相同故障再次发生的频率和处理时间。指标详情可查看表3。图5 故障管理表3 事件管理数据字典模块指标名称数据来源指标定义计算规则统计周期度量单位事件统计事件总量事件管理统计所有事件单数量选择时间范围内，所有事件单的数量天/月个事件级别事件管理统计各个类型和级别的事件单的数量选择时间范围内，各个类型和级别的事件单的数量天/月个事件闭环率事件管理统计事件单的闭环情况选择时间范围内，闭环状态的事件单数量/事件单总量*100% 天/月百分比平均事件耗时事件管理统计事件单平均处理时长已闭环事件单的处理时间求和/已闭环的事件单数量*100% 天/月 ddhhmm 受损应用事件管理统计事件单受损应用数量去重计算事件单的受损应用数量（包含已删除应用）天/月个 WarRoom WarRoom WarRoom 统计所有WarRoom数量选择时间范围内，所有WarRoom数量天/月个事件级别事件管理 WarRoom关联的事件单级别分布统计WarRoom关联的各级别事件单的数量天/月个受损应用 WarRoom 统计WarRoom中受损应用的数量去重计算WarRoom的受损应用数量天/月个平均处理时长 WarRoom 统计WarRoom平均处理时长选择时间范围内，已关闭的WarRoom处理时间总和/已关闭WarRoom数量天/月 ddhhmm 受理时间窗分布 WarRoom 统计WarRoom在各个时间窗内的拉起次数统计各个时间窗范围内，WarRoom的拉起次数天/月个问题改进问题总数问题管理所有的问题单数量统计时间周期内，所有的问题单数量天/月个问题完成率问题管理统计问题单的闭环情况闭环率=已完成问题单数量/问题单总量*100% 天/月百分比改进总数改进管理所有的改进单数量统计时间周期内，所有的改进单数量天/月个改进完成率改进管理统计改进单的闭环情况闭环率=已完成改进单数量/改进单总量*100% 天/月百分比

云运维中心 COC

云运维中心 COC-运维态势感知:操作场景

操作场景云运维中心提供运维态势感知的能力，包含变更、事件、告警、安全合规、SLO（服务级别目标）、PRR（生产准备度评估）等多种运维指标数据，从宏观到微观全面呈现运维全局态势，提供企业级运维沙盘。面向不同角色运维人员的专属运维BI看板，辅助运维优化改进和洞察决策。预置接入30个+运维指标，构建7张运维态势感知大屏，从宏观到微观全面呈现运维全局态势，提供企业级运维沙盘。支持组织/委托管理员跨账号查看组织成员账号的运维态势，提供跨账号场景下的多区域、多应用数据汇聚能力。

云运维中心 COC

云运维中心 COC-运维态势感知:变更管理

变更管理变更管理包含数据概览、变更开销、变更风险三个模块，全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标，通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图，分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋势，有效控制变更成本。指标详情可查看表2。图4 变更管理表2 变更管理数据字典模块指标名称数据来源指标定义计算规则统计周期度量单位变更概览变更总量变更管理统计的变更单的数量选择时间周期内，已完成的变更单数量天/月个变更成功率变更管理统计变更单的成功率情况变更成功率=变更成功的变更单数量/已完成的变更单数量*100% 天/月百分比变更平均时长变更管理统计变更单的平均处理时长选择时间周期内，已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 自动化变更率变更管理所有变更单中，自动化变更的占比自动化变更数量/所有变更单数量*100% 天/月百分比变更趋势变更管理变更成功和失败的数量以及变更成功率的趋势变化变更成功和失败的数量以及变更成功率天/月个变更开销变更人力变更管理统计参与变更所需要的人数变更人力=变更配合人+变更实施人天/月人次变更时间变更管理统计变更单的平均处理时长选择时间周期内，已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 变更风险变更导致的现网故障变更管理统计由于变更原因导致的现网各个级别的事件数量选择时间范围内，各级别事件单类型为变更操作问题的数量天/月个变更等级变更管理统计各个等级的变更单的数量选择时间周期内，各个等级的变更单数量天/月个变更方式变更管理统计各个方式（手动变更、自动化变更）的变更单数量计算各个方式的变更单数量天/月个

云运维中心 COC

云运维中心 COC-配置UniAgent:注意事项

注意事项当前只有弹性云服务器ECS 的实例支持UniAgent的操作。操作系统使用限制。表1 UniAgent支持的Linux操作系统及版本操作系统版本 EulerOS 1.1 64bit 2.0 64bit CentOS 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit 7.7 64bit 7.8 64bit 7.9 64bit 8.0 64bit Ubuntu 16.04 server 64bit 18.04 server 64bit 20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器，支持上表中所有的操作系统及版本。对于Linux ARM服务器，当前CentOS操作系统支持7.4/7.5/7.6版本，EulerOS操作系统支持2.0版本，Ubuntu操作系统支持18.04版本。

云运维中心 COC

云运维中心 COC-跨账号管理:前提条件

前提条件开通组织服务，请参见开通组织服务。图1 开通组织服务只有企业中心的企业主账号的权限才能创建组织，非企业账号不支持使用Organizations。企业中心创建组织后，需要在Organizations重新授权，即可访问组织所有功能。组织开通之后，跳转到组织管理页面，按照以下步骤创建组织： 1. 组织管理员需要创建一个组织，一个账号只能有一个组织； 2. 成员账号看不到除了控制面板外的东西； 3. 成员账号也必须是企业级账号；授权COC为可信服务，请参见授权为可信服务。图2 授权为可信服务该账号为管理员或者委托管理员，如果不是请参照添加委托管理员章节的内容。图3 添加委托管理员

云运维中心 COC

云运维中心 COC-资源看板:资源看板

资源看板登录云运维中心。进入COC“总览”后，可以查看对应的资源信息。图1 资源信息默认展示全部区域的资源，您可以自定义筛选指定区域查看该区域下的资源。图2 区域筛选鼠标移动到云服务图标（云服务图标右上角红底数字代表告警数量）悬停，可以快速查看紧急/重要告警数量，以及资源实例的区域分布。图3 鼠标悬停查看资源单击云服务图标，可以查询对应资源类型的全部资源信息。图4 查询资源信息单击“查看详情”将会跳转至ECS云服务的实例基本信息页面。图5 查看资源详情单击资源名称左侧箭头可展开全部告警信息（来源于 CES ），单击告警规则名称将会跳转至CES对应的告警规则页面，单击“告警自动处理”将会打开COC执行响应预案页面，可快速处理告警。图6 查看告警单击右上角“刷新”按钮，可实时同步资源与告警信息。

云运维中心 COC

云服务器内容精选

云运维中心 COC

7*24

备案

专业服务

退订

建议反馈

售前咨询热线