云服务器内容精选

  • 前提条件 已创建VPC和子网,具体操作请参见创建虚拟私有云和子网。 已购买主机,具体操作请参见购买弹性 云服务器ECS 或购买裸金属服务器BMS。 已购买数据库实例,具体操作请参见 购买GaussDB (for MySQL)实例、购买 GaussDB 实例、购买RDS for PostgreSQ L实例 、购买GeminiDB Cassandra实例或购买RDS for MySQL实例。 已购买CCE容器集群,具体操作请参见购买集群。 已完成基础信息配置。 已获取基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 待纳管主机的服务已规划业务账号。
  • 资源接入运维中心 进入AppStage运维中心。 在顶部导航栏选择需要接入资源的服务。 单击“运维接入一站式地图”后的“接入引导”,如图1所示,进入“运维中心一站式接入流程”页面。 图1 接入引导 配置环境。 在公共配置区域,选择需要接入资源所属的账号及Region。 在配置环境区域,单击“创建环境”。 输入环境名称,选择用途并输入环境描述,然后单击“确定”,如图2所示。创建并启用环境,同时将环境与所选的公共配置关联。 图2 创建环境 单击“下一步:纳管VPC”。 纳管VPC。 在纳管VPC区域,单击“创建纳管”。 选择需要纳管的虚拟私有云(VPC),并选择终端节点子网,然后单击“确定”,纳管VPC并将VPC与所选环境关联。 纳管VPC时运维中心会自动创建的两个终端节点,终端节点会产生费用,按终端节点实例的实际使用时长计费,如需查看费用账单请参见费用账单。 单击“下一步:纳管主机”。 纳管主机。 以Linux主机为例,介绍如何根据纳管主机指引完成首次纳管Linux主机。 为Linux主机手动安装OpsAgent。 单击CURL命令后的,复制安装命令。 使用root账号远程登录主机后,执行安装命令安装OpsAgent。 主机分配。勾选待纳管的主机,单击“主机分配”完成主机纳管,如图3所示。 图3 主机分配 设置执行机。单击已纳管的主机所在行后的“设置执行机”。 单击“下一步:纳管数据库”。 纳管数据库。 在纳管数据库区域,单击“新建纳管”。 配置纳管数据库相关参数,如图4所示,然后单击“确定”,完成数据库纳管。 图4 纳管数据库 单击“下一步:纳管容器集群”。 纳管容器集群。 在纳管容器集群区域,单击“新建纳管”。 选择需要纳管的华为云CCE集群,并输入集群别名。然后单击“确定”,完成容器集群纳管。 单击“完成”,完成所有资源接入。
  • 构建版本 在左侧导航栏选择“流水线管理”,进入“流水线管理”页面。 在“流水线管理”页面,选择已创建版本的版本号“24.12.0.1”,单击“关联流水线”,在“关联流水线”页面,根据界面提示单击“立即前往”新建流水线,如图3所示。 图3 新建流水线 在“流水线管理”页面,单击“新建流水线”。 配置基本信息参数,参数说明如表2所示,单击“下一步”,选择“空模板”,单击“确定”,进入“任务编排”页面。 表2 参数说明 参数名称 参数说明 取值示例 名称 输入流水线名称。 Pipeline01 代码源 选择代码源。 Repo 代码仓 选择已创建的代码仓库。 Repo01 默认分支 选择默认分支。 master 根据需要配置流水线,然后单击“保存”。 进入“流水线管理”页面,单击右上角“关联流水线”。 在“关联流水线”页面,勾选已新建和配置完成的流水线,单击“确定”。 在流水线列表中,单击已关联的流水线所在行“操作”列的“执行”,单击“确定”,流水线开始构建版本的发布软件包。
  • 入门实践 当您购买AppStage后,可以根据自身的业务需求使用AppStage提供的一系列常用实践。 表1 常用最佳实践 实践 描述 一站式应用开发、应用托管以及应用运维 介绍如何使用应用平台AppStage一站式功能,完成基于应用维度提供的开发、测试、版本发布、托管部署、运维监控的全场景全生命周期管理。 基于运维数仓的数据开发与应用 介绍如何通过AppStage运维中心完成对业务实时数据的接入、处理、开发与应用。 基于Spring Cloud框架进行应用上云 以Spring Cloud Demo项目为例,带您体验使用AppStage的开发中心、运维中心及运行时引擎进行工程创建、代码开发、打包发布、部署上线的全过程。
  • 使用流程 通过图1您可以了解如何在AI原生应用引擎创建数据集、创建微调任务、部署推理模型以及在线测试模型效果。 图1 模型调优流程 创建微调数据集 数据集是模型微调的基础,首先需要创建用于模型训练的数据集。 创建模型微调流水线 通过模型微调任务进行模型训练,微调任务结束后,将生成改进后的新模型。 部署模型 模型部署是通过为基座模型(即原模型)和微调后的新模型创建用于预测的模型服务的过程实现。 测试模型调优效果 在线测试微调后的模型(输入问题发起请求获取数据分析结果),可检验模型的准确性、可靠性及反应效果。 清除相应资源 对于不再需要使用的微调任务和模型服务,及时清除相应资源,避免不必要的扣费。
  • 前提条件 已获取服务运维岗位权限、基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已获取CBH权限,如果CBH所属账号与AppStage开租账号一致,订购时进行服务授权会自动授权CBH权限,如果不一致,录入的华为账号需要添加CBH权限“CBH FullAccess”。 “AK-SK”方式:确认 IAM 用户所属用户组,并为用户组授权,具体操作请参见用户组授权。 “授权委托”方式:修改委托权限,增加所需的权限,具体操作请参见修改委托。
  • 运维面临的问题 应用的快速迭代与现网业务稳定性之间存在冲突,应用发布周期短,版本可能未经过充分的现网验证。 运维平台基于开源软件或者各类分散工具构建,各工具能力参差不齐,缺乏统一的数据接入、监控、诊断、 数据治理 体系。 系统可用性依赖全栈可观测,运维人员需要被动变主动,利用数据实时监控分析系统的性能、可靠性和运行状态,及时发现问题,精准定位问题。 外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露风险大。
  • 运维中心的优势 简化运维管理:使用AppStage运维中心可以集中管理和监控IT资源及服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期运行 数据可视化 ,避免数据孤岛。 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。
  • 更多操作 变更电子流创建后,您还可以对电子流进行以下操作。 表2 相关操作 操作名称 操作步骤 撤回变更电子流 在我的申请列表,单击待撤回变更电子流所在行“操作”列的。 撤回后记录依然存在,可以编辑、取消或克隆该电子流。 说明: 仅审批中的电子流可以撤回,已审批并处于变更状态的电子流无法撤回。 克隆变更电子流 在我的申请列表,单击待克隆变更电子流所在行“操作”列的。 可以修改信息后,单击“提交”。 转发变更电子流 我的申请列表,单击待转发变更电子流所在行“操作”列的。 配置转发任务信息,单击“确定”。 说明: 被转发人需要与转发人有相同权限,如同为一级审批人、同为二级审批人或同为三级审批人。 不能转发给变更单申请人。
  • 创建变更电子流 进入AppStage运维中心。 将鼠标悬停在右上角的账号,选择下拉列表中的“工单管理”,默认显示“变更单管理”页面。 单击“新建”。 配置电子流参数,参数说明如表1所示,配置完成后,单击“提交”。 页面带“*”标志的参数为必填参数,如需保存草稿,需要将必填参数填写完整。 表1 新建变更电子流 参数类型 参数名称 参数说明 基本信息 变更类型 选择变更类型。 服务部署:服务版本升级部署。 服务优化:修复业务自身集成设施或组件相关安全漏洞;业务发展变化引发的容量变化、服务迁移、资源调整、可用性优化;服务配置修改。 运营支撑:营销活动支撑,包括营销活动支持、用户服务支持。 运维优化:包括服务运维优化、基础运维优化、运维安全优化、运维工具优化。 产品 选择需要变更的产品。 服务 选择需要变更的服务。 服务环境 选择需要变更的服务环境。 版本号 变更类型是“服务部署”时,需要选择服务部署的版本号,支持自定义输入。 变更标题 输入变更标题,默认前缀为“部署站点-服务-变更类型”。 变更内容 输入变更内容说明。 变更等级 选择变更等级,包括A、B、C、D四个等级。 A级:管理面中断5min及以上或业务平面中断5秒及以上的变更。默认变更需要进行一到三级审批,可修改。 B级:管理面中断5min以内或业务平面中断5秒以内的变更。默认变更需要进行一、二级审批,可修改。 C级:业务不中断,客户无感知。默认变更需要进行一级审批,可修改。 D级:业务不中断,客户无感知,低风险变更。默认不需要进行审批。 变更时间 部署计划时间 选择部署的计划开始时间和计划结束时间。 审批人 一级审批人/二级审批人/三级审批人 根据选择的变更等级及设置的审批层级,输入对应的审批人。 说明: 组织管理员可以修改一级审批人、二级审批人、三级审批人的角色名称,可自定义修改,如已修改角色名称,此处显示修改后的角色名称,如“一级审批人(技术评审)”。 变更实施人 填写变更实施人。 审批人审批后的电子流会走给变更实施人做变更实施。 变更验证人 填写变更验证人。 变更实施后电子流会走给变更验证人。 其他附件 - 变更方案以及其他指导性文档可以通过附件上传word文档。
  • file_check 插件类型 APP 功能说明 查看文件是否存在以及查看文件的大小,以Byte为单位,将结果上报到HCW。 参数配置 配置样例: path:/tmp/error_*.log #路径为绝对路径,支持通配符。 消息样例及含义说明 { "plugin_id":"file_check", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "exists":"1", #单位: | 类型:string | 说明:文件是否存在,1表示存在,0表示不存在 "size":"80", #单位:Byte | 类型:string | 说明:表示文件大小 }] }
  • logalarm 插件类型 ALARM 功能说明 监控指定日志文件,配置日志匹配关键字,并按照配置参数的要求,生成告警并上报到HCW。 参数配置 collect_file_path #定义日志采集配置,按照以下字段,使用json格式数据单行填入。 字段ID 字段名 必填 类型 范围 备注 id 告警定义ID 是 String 1~128 告警ID,由数字、字母、下划线组成。 alarm_name 告警名称 是 String 1~128 支持配置变量{{$log_info}},上报告警时会替换成匹配到的最后一条ERROR日志;支持配置变量{{$all_matching_log}},上报告警时会替换成匹配到的所有ERROR日志,当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期又匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。 alarm_level 告警级别 是 String 枚举 致命critical、严重major、一般minor、提示notice。 不区分大小写。 key_word 日志匹配关键字 是 String NA 日志匹配关键字,支持正则表达式。 match_file 日志文件绝对路径 是 String NA 支持变量、通配符,配置多个地址时需要使用逗号分隔。 matches 最大匹配次数 是 long NA - number_of_match_period 匹配周期数 是 long NA 与matches和key_word组合使用。 number_of_nodata_period 无数据上报的周期数 否 long NA 单独使用,与matches和key_word无关联。 description 告警详情 是 String NA 进一步丰富告警信息。 参数配置样例 [{"id":"alert20240627","alarm_name":"test20240627","alarm_level":"major","key_word":"usr/bin/sudo","match_file":"/var/log/messages","matches":2,"number_of_match_period":"30","number_of_nodata_period":"10","description":"test20240627"}] # 30个周期内匹配2次以上,则产生告警;30个周期内匹配2次或者2次以下,则清除告警。 # 10个周期内有数据则产生告警,10个周期内无数据上报则清除告警。
  • snmp 插件类型 OS 功能说明 周期采集机器上TCP及UDP连接相关数据,每次采集发送一条消息。 原始数据来自:/proc/net/snmp 参数配置 不需配置。 消息样例及含义说明 { "plugin_id": "snmp", "metric": { "node": "host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "tcp_curr_estab": "19", #单位: | 类型: double | 说明:当前处于ESTABLISHED/CLOSE_WAIT状态的TCP连接数 "tcp_in_segs_ps": "327.6371", #单位:包/s| 类型:double | 说明:tcp收包速率 "tcp_out_segs_ps": "672.2037", #单位:包/s| 类型:double | 说明:tcp发包速率 "tcp_retrans_rate_ps": "15.0", #单位:% | 类型: double | 说明:tcp重传率 "udp_in_datagrams_ps": "0.0000", #单位:包/s| 类型:double | 说明:udp收包速率 "udp_out_datagrams_ps": "0.0000", #单位:包/s| 类型:double | 说明:udp发包速率 "active_conn": "0.0000", #单位:次/s| 类型:double | 说明:单位时间tcp连接主动连接发起次数 "passive_conn": "0.0000" #单位:次/s| 类型:double | 说明:单位时间tcp被动建立连接次数 } }
  • tomcat 插件类型 APP 功能说明 针对机器上运行的多个Tomcat进程,周期采集其运行数据。 插件运行后,将首先在“agent框架lib/tomcat/”路径下生成TomcatJmx_fat.jar,后续每次执行时,都会通过该jar包使用JMX接口采集tomcat进程相关信息。每次采集结束,每个tomcat进程分别生成一条消息,http_port可作为区分标志。 参数配置 用户在使用该插件进行采集之前,需要先手动修改tomcat安装目录下bin/catalina.sh,在文件中添加以下字段以支持JMX采集功能: CATALINA_OPTS="$CATALINA_OPTS -Djava.rmi.server.hostname=127.0.0.1 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=58880 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false" 用户还需要为插件配置当前本机运行中的Tomcat对应的安装路径,可配置单个或多个,以”,”做分隔符。 tomcat_install_path #可以识别绝对路径以及环境变量。 如果采用环境变量来传递Tomcat安装路径,要求在~/.bashrc中添加export命令进行配置,如下图: 在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。 消息样例及含义说明 {      "plugin_id":"tomcat",     "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": 1482161028000, #单位: | 类型:long long | 说明:UTC时间戳 "request_count":"0", #单位: | 类型:double | 说明:采集间隔内新增请求数 "request_errors_count":"0", #单位: | 类型:double | 说明:采集间隔内新增错误请求数 "thread_total":"47", #单位: | 类型:double | 说明:累计线程数 "http_port_id":"8080", #单位: | 类型:double | 说明:tomcat对外提供服务的端口号         } }
  • scriptcollet 插件类型 APP 功能说明 执行脚本命令或者读取指定文件内容,并将结果上报给HCW。 参数配置 配置样例: type:script # 采集方式,可选填 script(采集脚本)或者 path(采集文件)。 ex_path:/opt/huawei/monitor/disk.sh # 脚本执行路径或者采集文件路径。 _filter_key_id:/opt/huawei/monitor/disk.sh # 多实例插件的key,此参数是为了支持多实例插件上报使用,只需要保证多个实例中该值均不同,建议与ex_path值保持一致。 scriptcollect为多实例插件,即scriptcollect插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"scriptcollect", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "key_id":"/opt/huawei/monitor/disk.sh", #单位: | 类型:string | 说明:对应模板配置的key值 "collect_value":"80", #单位: | 类型:string | 说明:执行脚本命令或者读取指定文件内容上报的值 }] }