应用平台 APPSTAGE-华为云

应用平台 APPSTAGE-使用运维中心统一管理资源:前提条件

前提条件已创建VPC和子网，具体操作请参见创建虚拟私有云和子网。已购买主机，具体操作请参见购买弹性云服务器ECS 或购买裸金属服务器BMS。已购买数据库实例，具体操作请参见购买GaussDB (for MySQL)实例、购买 GaussDB 实例、购买RDS for PostgreSQ L实例、购买GeminiDB Cassandra实例或购买RDS for MySQL实例。已购买CCE容器集群，具体操作请参见购买集群。已完成基础信息配置。已获取基础运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。待纳管主机的服务已规划业务账号。

应用平台 APPSTAGE

应用平台 APPSTAGE-使用运维中心统一管理资源:资源接入运维中心

资源接入运维中心进入AppStage运维中心。在顶部导航栏选择需要接入资源的服务。单击“运维接入一站式地图”后的“接入引导”，如图1所示，进入“运维中心一站式接入流程”页面。图1 接入引导配置环境。在公共配置区域，选择需要接入资源所属的账号及Region。在配置环境区域，单击“创建环境”。输入环境名称，选择用途并输入环境描述，然后单击“确定”，如图2所示。创建并启用环境，同时将环境与所选的公共配置关联。图2 创建环境单击“下一步：纳管VPC”。纳管VPC。在纳管VPC区域，单击“创建纳管”。选择需要纳管的虚拟私有云（VPC），并选择终端节点子网，然后单击“确定”，纳管VPC并将VPC与所选环境关联。纳管VPC时运维中心会自动创建的两个终端节点，终端节点会产生费用，按终端节点实例的实际使用时长计费，如需查看费用账单请参见费用账单。单击“下一步：纳管主机”。纳管主机。以Linux主机为例，介绍如何根据纳管主机指引完成首次纳管Linux主机。为Linux主机手动安装OpsAgent。单击CURL命令后的，复制安装命令。使用root账号远程登录主机后，执行安装命令安装OpsAgent。主机分配。勾选待纳管的主机，单击“主机分配”完成主机纳管，如图3所示。图3 主机分配设置执行机。单击已纳管的主机所在行后的“设置执行机”。单击“下一步：纳管数据库”。纳管数据库。在纳管数据库区域，单击“新建纳管”。配置纳管数据库相关参数，如图4所示，然后单击“确定”，完成数据库纳管。图4 纳管数据库单击“下一步：纳管容器集群”。纳管容器集群。在纳管容器集群区域，单击“新建纳管”。选择需要纳管的华为云CCE集群，并输入集群别名。然后单击“确定”，完成容器集群纳管。单击“完成”，完成所有资源接入。

应用平台 APPSTAGE

应用平台 APPSTAGE-使用开发中心进行版本管理:构建版本

构建版本在左侧导航栏选择“流水线管理”，进入“流水线管理”页面。在“流水线管理”页面，选择已创建版本的版本号“24.12.0.1”，单击“关联流水线”，在“关联流水线”页面，根据界面提示单击“立即前往”新建流水线，如图3所示。图3 新建流水线在“流水线管理”页面，单击“新建流水线”。配置基本信息参数，参数说明如表2所示，单击“下一步”，选择“空模板”，单击“确定”，进入“任务编排”页面。表2 参数说明参数名称参数说明取值示例名称输入流水线名称。 Pipeline01 代码源选择代码源。 Repo 代码仓选择已创建的代码仓库。 Repo01 默认分支选择默认分支。 master 根据需要配置流水线，然后单击“保存”。进入“流水线管理”页面，单击右上角“关联流水线”。在“关联流水线”页面，勾选已新建和配置完成的流水线，单击“确定”。在流水线列表中，单击已关联的流水线所在行“操作”列的“执行”，单击“确定”，流水线开始构建版本的发布软件包。

应用平台 APPSTAGE

应用平台 APPSTAGE-入门实践

入门实践当您购买AppStage后，可以根据自身的业务需求使用AppStage提供的一系列常用实践。表1 常用最佳实践实践描述一站式应用开发、应用托管以及应用运维介绍如何使用应用平台AppStage一站式功能，完成基于应用维度提供的开发、测试、版本发布、托管部署、运维监控的全场景全生命周期管理。基于运维数仓的数据开发与应用介绍如何通过AppStage运维中心完成对业务实时数据的接入、处理、开发与应用。基于Spring Cloud框架进行应用上云以Spring Cloud Demo项目为例，带您体验使用AppStage的开发中心、运维中心及运行时引擎进行工程创建、代码开发、打包发布、部署上线的全过程。

应用平台 APPSTAGE

应用平台 APPSTAGE-使用AI原生应用引擎完成模型调优:使用流程

使用流程通过图1您可以了解如何在AI原生应用引擎创建数据集、创建微调任务、部署推理模型以及在线测试模型效果。图1 模型调优流程创建微调数据集数据集是模型微调的基础，首先需要创建用于模型训练的数据集。创建模型微调流水线通过模型微调任务进行模型训练，微调任务结束后，将生成改进后的新模型。部署模型模型部署是通过为基座模型（即原模型）和微调后的新模型创建用于预测的模型服务的过程实现。测试模型调优效果在线测试微调后的模型（输入问题发起请求获取数据分析结果），可检验模型的准确性、可靠性及反应效果。清除相应资源对于不再需要使用的微调任务和模型服务，及时清除相应资源，避免不必要的扣费。

应用平台 APPSTAGE

应用平台 APPSTAGE-将华为云堡垒机CBH纳管至运维中心VMS:前提条件

前提条件已获取服务运维岗位权限、基础运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。已获取CBH权限，如果CBH所属账号与AppStage开租账号一致，订购时进行服务授权会自动授权CBH权限，如果不一致，录入的华为账号需要添加CBH权限“CBH FullAccess”。 “AK-SK”方式：确认 IAM 用户所属用户组，并为用户组授权，具体操作请参见用户组授权。 “授权委托”方式：修改委托权限，增加所需的权限，具体操作请参见修改委托。

应用平台 APPSTAGE

应用平台 APPSTAGE-为什么使用AppStage运维中心:运维中心的优势

运维中心的优势简化运维管理：使用AppStage运维中心可以集中管理和监控IT资源及服务，大大简化了运维管理的复杂性。通过统一的Console，SRE可以轻松地管理服务器、数据库、网络和应用等各个方面，实现应用生命周期运行数据可视化，避免数据孤岛。提高运维效率：AppStage运维中心提供了自动化的运维流程和任务调度功能，可以自动执行常见的运维任务，如监控、故障处理等，节省SRE大量的时间和精力，让运维团队能够更专注于解决重要的问题和提供高价值的服务。实现故障快速恢复：AppStage运维中心具备强大的故障监测和自动恢复能力，当系统出现故障或异常时，AIOps可以及时发现并采取相应的措施进行修复，最大限度地减少停机时间和业务中断，减轻可能出现的业务损失和客户流失。提供实时监控和报告：AppStage运维中心集成了丰富的监控和报表功能，可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表，SRE可以随时了解系统的运行情况，进行及时的决策和调整。同时，这些信息也可以用于向上级管理层的汇报和运维成果展示。降低运维成本：AppStage运维中心沉淀了华为在运维领域的管理经验，基于人工智能技术提供数据分析，优化资源配置，预测未来需求，以降低IT资源成本。企业将应用迁移至华为云后，通过AppStage运维中心来自主管理和运维，可以自然使用上述能力获得成本优势。提高运维安全性：AppStage运维中心通过身份验证、访问控制和加密等技术，保护企业应用不受攻击、侵入、干扰和破坏，确保客户数据的安全性和完整性，同时通过自动化变更、操作防呆等减少SRE的误操作风险。

应用平台 APPSTAGE

应用平台 APPSTAGE-为什么使用AppStage运维中心:运维面临的问题

运维面临的问题应用的快速迭代与现网业务稳定性之间存在冲突，应用发布周期短，版本可能未经过充分的现网验证。运维平台基于开源软件或者各类分散工具构建，各工具能力参差不齐，缺乏统一的数据接入、监控、诊断、数据治理体系。系统可用性依赖全栈可观测，运维人员需要被动变主动，利用数据实时监控分析系统的性能、可靠性和运行状态，及时发现问题，精准定位问题。外部安全攻击渗透频率日趋增多，攻击技术手段越发高超，数据泄露风险大。

应用平台 APPSTAGE

应用平台 APPSTAGE-创建运维中心变更电子流:更多操作

更多操作变更电子流创建后，您还可以对电子流进行以下操作。表2 相关操作操作名称操作步骤撤回变更电子流在我的申请列表，单击待撤回变更电子流所在行“操作”列的。撤回后记录依然存在，可以编辑、取消或克隆该电子流。说明：仅审批中的电子流可以撤回，已审批并处于变更状态的电子流无法撤回。克隆变更电子流在我的申请列表，单击待克隆变更电子流所在行“操作”列的。可以修改信息后，单击“提交”。转发变更电子流我的申请列表，单击待转发变更电子流所在行“操作”列的。配置转发任务信息，单击“确定”。说明：被转发人需要与转发人有相同权限，如同为一级审批人、同为二级审批人或同为三级审批人。不能转发给变更单申请人。

应用平台 APPSTAGE 管理变更单

应用平台 APPSTAGE-创建运维中心变更电子流:创建变更电子流

创建变更电子流进入AppStage运维中心。将鼠标悬停在右上角的账号，选择下拉列表中的“工单管理”，默认显示“变更单管理”页面。单击“新建”。配置电子流参数，参数说明如表1所示，配置完成后，单击“提交”。页面带“*”标志的参数为必填参数，如需保存草稿，需要将必填参数填写完整。表1 新建变更电子流参数类型参数名称参数说明基本信息变更类型选择变更类型。服务部署：服务版本升级部署。服务优化：修复业务自身集成设施或组件相关安全漏洞；业务发展变化引发的容量变化、服务迁移、资源调整、可用性优化；服务配置修改。运营支撑：营销活动支撑，包括营销活动支持、用户服务支持。运维优化：包括服务运维优化、基础运维优化、运维安全优化、运维工具优化。产品选择需要变更的产品。服务选择需要变更的服务。服务环境选择需要变更的服务环境。版本号变更类型是“服务部署”时，需要选择服务部署的版本号，支持自定义输入。变更标题输入变更标题，默认前缀为“部署站点-服务-变更类型”。变更内容输入变更内容说明。变更等级选择变更等级，包括A、B、C、D四个等级。 A级：管理面中断5min及以上或业务平面中断5秒及以上的变更。默认变更需要进行一到三级审批，可修改。 B级：管理面中断5min以内或业务平面中断5秒以内的变更。默认变更需要进行一、二级审批，可修改。 C级：业务不中断，客户无感知。默认变更需要进行一级审批，可修改。 D级：业务不中断，客户无感知，低风险变更。默认不需要进行审批。变更时间部署计划时间选择部署的计划开始时间和计划结束时间。审批人一级审批人/二级审批人/三级审批人根据选择的变更等级及设置的审批层级，输入对应的审批人。说明：组织管理员可以修改一级审批人、二级审批人、三级审批人的角色名称，可自定义修改，如已修改角色名称，此处显示修改后的角色名称，如“一级审批人（技术评审）”。变更实施人填写变更实施人。审批人审批后的电子流会走给变更实施人做变更实施。变更验证人填写变更验证人。变更实施后电子流会走给变更验证人。其他附件 - 变更方案以及其他指导性文档可以通过附件上传word文档。

应用平台 APPSTAGE 管理变更单

应用平台 APPSTAGE-常用监控插件说明:file_check

file_check 插件类型 APP 功能说明查看文件是否存在以及查看文件的大小，以Byte为单位，将结果上报到HCW。参数配置配置样例： path：/tmp/error_*.log #路径为绝对路径，支持通配符。消息样例及含义说明 { "plugin_id":"file_check", #单位： | 类型：string | 说明：插件名 "metric":[{ "node": " host-10-22-0-170", #单位： | 类型：string | 说明：主机名，消息来源标识 "timestamp": "1518078026000", #单位： | 类型：string | 说明：字符类型时间戳 "exists":"1", #单位： | 类型：string | 说明：文件是否存在，1表示存在，0表示不存在 "size":"80", #单位：Byte | 类型：string | 说明：表示文件大小 }] }

应用平台 APPSTAGE 采集Linux主机监控指标

应用平台 APPSTAGE-常用监控插件说明:logalarm

logalarm 插件类型 ALARM 功能说明监控指定日志文件，配置日志匹配关键字，并按照配置参数的要求，生成告警并上报到HCW。参数配置 collect_file_path #定义日志采集配置，按照以下字段，使用json格式数据单行填入。字段ID 字段名必填类型范围备注 id 告警定义ID 是 String 1~128 告警ID，由数字、字母、下划线组成。 alarm_name 告警名称是 String 1~128 支持配置变量{{$log_info}}，上报告警时会替换成匹配到的最后一条ERROR日志；支持配置变量{{$all_matching_log}}，上报告警时会替换成匹配到的所有ERROR日志，当alarm_name配置了变量{{$all_matching_log}}时，若产生告警且后续周期又匹配到了告警，新匹配到的告警会在原告警ID的基础上，产生一个新的告警，并上报到监控系统，告警清除时会清除当前告警和后续产生的告警；当alarm_name配置为空时，会读取文件中的所有内容，逐行检测并上报告警。 alarm_level 告警级别是 String 枚举致命critical、严重major、一般minor、提示notice。不区分大小写。 key_word 日志匹配关键字是 String NA 日志匹配关键字，支持正则表达式。 match_file 日志文件绝对路径是 String NA 支持变量、通配符，配置多个地址时需要使用逗号分隔。 matches 最大匹配次数是 long NA - number_of_match_period 匹配周期数是 long NA 与matches和key_word组合使用。 number_of_nodata_period 无数据上报的周期数否 long NA 单独使用，与matches和key_word无关联。 description 告警详情是 String NA 进一步丰富告警信息。参数配置样例 [{"id":"alert20240627","alarm_name":"test20240627","alarm_level":"major","key_word":"usr/bin/sudo","match_file":"/var/log/messages","matches":2,"number_of_match_period":"30","number_of_nodata_period":"10","description":"test20240627"}] # 30个周期内匹配2次以上，则产生告警；30个周期内匹配2次或者2次以下，则清除告警。 # 10个周期内有数据则产生告警，10个周期内无数据上报则清除告警。

应用平台 APPSTAGE 采集Linux主机监控指标

应用平台 APPSTAGE-常用监控插件说明:osinfo

osinfo 插件类型 OS 功能说明 osinfo插件采集操作系统相关信息。使用该插件要求/etc/nsswitch.conf文件有读权限，且其中hosts的解释项不能使用dns，即cat /etc/nsswitch.conf | grep "^hosts:" | grep dns命令返回应为空。"running"/"sleeping"/"stopped"/"zombie"，全部进程数total与top命令输出的结果一致；最大文件打开数max_opens、最大进程数max_procs与ulimit -u、ulimit -n命令输出一致；本机当前打开的句柄数open_files与lsof|wc –l命令输出一致。open_files的获取每180秒只采集并上报一次，对于那些没有采集open_files的周期，该指标不出现在消息中。原始数据来源：/proc/stat 参数配置不需配置。消息样例及含义说明 { "plugin_id": "osinfo", "metric": { "node": " host-10-33-0-188", #单位： | 类型：string | 说明：主机名，消息来源标识 "timestamp": 1482161028000, #单位： | 类型：long | 说明：UTC时间戳 "ctx": "245480", #单位： | 类型：int | 说明：本周期上下文切换次数 "procs": "1032", #单位： | 类型：int | 说明：采集周期内新增的任务总数 "blocked": "0", #单位： | 类型：int | 说明：当前被阻塞的任务数 "running": "0", #单位： | 类型：int | 说明：当前R状态的进程数（top: running） "sleeping": "882", #单位： | 类型：int | 说明：当前D状态的进程数（top: sleeping） "stopped": "1", #单位： | 类型：int | 说明：当前T状态的进程数（top: stopped） "zombie": "1" #单位： | 类型：int | 说明：当前Z状态的进程数（top: zombie） "procs_total": "884", #单位： | 类型：int | 说明：当前总进程数（top: Tasks） "max_opens": "2059087", #单位： | 类型：int | 说明：执行ulimit -n结果 "max_procs": "1024", #单位： | 类型：int | 说明：执行ulimit -u结果 "open_files": "2059087", #单位： | 类型：int | 说明：本机当前打开的句柄数 } }

应用平台 APPSTAGE 采集Linux主机监控指标

应用平台 APPSTAGE-常用监控插件说明:tcp

tcp 插件类型 APP 功能说明检测本机或者指定主机端口是否可连通，并将结果返回HCW。参数配置配置样例： _filter_ip_id：xxx.0.0.1 # 检测IP，检测本机指定端口是否可达，配置值为127.0.0.1，检测指定主机端口是否可达，配置值为指定主机IP；当检测本机端口是否可达时，会检测127.0.0.1+端口和本机公网IP+端口是否可达，若有一项可达则表明本机端口可达。 _filter_port_id：80 # 检测端口。 TCP为多实例插件，即TCP插件可以配置多组参数，但需要每组参数均不相同。消息样例及含义说明 { "plugin_id":"tcp", #单位： | 类型：string | 说明：插件名 "metric":[{ "node": " host-10-33-0-188", #单位： | 类型：string | 说明：主机名，消息来源标识 "timestamp": "1518078026000", #单位： | 类型：string | 说明：字符类型时间戳 "port_status":"1", #单位： | 类型：string | 说明：端口状态，端口可达值为1，不可达值为0 "ip_id":"xxx.0.0.1", #单位： | 类型：string | 说明：检测IP "port_id":"80", #单位： | 类型：string | 说明：检测端口 }] }

应用平台 APPSTAGE 采集Linux主机监控指标

应用平台 APPSTAGE-常用监控插件说明:gpu

gpu 插件类型 OS 功能说明采集GPU信息，每次采集都为每个GPU，以及总GPU维度分别生成消息，并上报给HCW。执行nvidia-smi命令，分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息，并整合总GPU信息上报给HCW。参数配置不需要配置。消息样例及含义说明 { "plugin_id":"gpu", #单位： | 类型：string | 说明：插件名 "metric":{ "node": "bj-xen-pdc-241-202", #单位： | 类型：string | 说明：主机名，消息来源标识 "timestamp": "1518078026000", #单位： | 类型：string | 说明：字符类型时间戳 "_id":"GPU-0", #单位： | 类型：string | 说明：GPU编号，总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位： | 类型：string | 说明：GPU型号 "bus_id":"0000:04:00.0", #单位： | 类型：string | 说明：GPU的Bus-Id "util":"61", #单位： | 类型：string | 说明：GPU使用率 "mem_used":"1385", #单位： | 类型：string | 说明：GPU已使用显存 "mem_total":"16276", #单位： | 类型：string | 说明：GPU显存总量 "mem_util":"8.50" #单位： | 类型：string | 说明：GPU显存使用率 } }

应用平台 APPSTAGE 采集Linux主机监控指标

云服务器内容精选

应用平台 APPSTAGE

7*24

备案

专业服务

退订

建议反馈

售前咨询热线