检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置健康检查 健康检查是指容器部署的组件在运行过程中,根据需要定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 ServiceStage提供了如下健康检查方式:
编辑泳道组 泳道组创建完成后,您可以重新编辑泳道组参数配置以满足实际业务需要。 前提条件 待操作泳道组已创建成功,请参考创建泳道组。 编辑泳道组 登录ServiceStage控制台。 单击“全链路流量控制”。 选择以下任意方式弹出泳道组编辑对话框: 单击待操作泳道组所在行“操作”列
删除泳道组 不再使用的泳道组,您可以将其删除。泳道组删除后无法恢复。 前提条件 待操作泳道组下的基线泳道已经删除,请参考删除基线泳道。 删除泳道组 登录ServiceStage控制台。 单击“全链路流量控制”。 单击待操作泳道组所在行“操作”列“删除”。 单击“确定”。 父主题:
回滚基线泳道组件 已经在灰度泳道验证通过的灰度组件通过组件基线化升级了基线泳道同名组件后,根据实际业务需要,您可以将基线泳道组件版本配置回滚到最近一次基线化前的版本。 回滚后无法恢复。 前提条件 基线泳道组件已完成基线化升级,请参考基线化基线泳道组件。 回滚基线泳道组件 登录ServiceStage
关联基线泳道组件 基线泳道需要关联应用中的所有基线版本组件,当微服务调用链中不存在某个组件的时候,会默认访问基线泳道中的对应组件。 使用限制 如果待关联组件绑定了注册配置中心且使用Sermant Agent接入方式接入,在使用容器部署方式创建组件时参考添加组件环境变量、使用虚拟机部署方式创建组件时参考添加组件环境变量为组件手动添加如下组件环境变量
导入应用环境变量 本章节指导您通过文件导入方式为应用添加环境变量。 使用限制 导入的文件必须为JSON或YAML格式、字符串形式的键值对映射,一次性最多支持导入200个环境变量。文件内容及格式示例如下: {"key1": "value1", "key2": "value2"} 其中
删除应用环境变量 本章节指导您删除不再使用的应用环境变量。 使用限制 请根据您的实际业务需要删除应用环境变量,防止由于应用环境变量缺失导致升级单个组件版本配置、批量升级组件版本配置时组件启动失败。 前提条件 待删除的应用环境变量已通过手动添加应用环境变量或导入应用环境变量方式创建。
修改灰度泳道名称标签 灰度泳道创建完成后,您可根据实际业务需要修改泳道的名称、标签。 前提条件 已创建灰度泳道,请参考创建灰度泳道。 灰度泳道下不存在组件。若存在,需全部删除,请参考删除组件。 修改灰度泳道名称标签 登录ServiceStage控制台。 单击“全链路流量控制”。 单击待操作灰度泳道所在泳道组名称
删除命名空间 本章节指导您删除Kubernetes类型环境下绑定的CCE集群中不再使用的用户创建命名空间。 删除命名空间会删除该命名空间下所有的资源(如工作负载、配置项等),可能会导致运行在该命名空间下的组件无法正常升级单个组件版本配置、批量升级组件版本配置或者回滚组件版本配置。
安装虚拟机Agent 本章节指导您为虚拟机类型环境下纳管的单台虚拟机安装虚拟机Agent。 前提条件 虚拟机环境下已经纳管虚拟机资源且未安装虚拟机Agent。为虚拟机环境纳管虚拟机资源,请参考纳管基础资源。 安装虚拟机Agent 登录ServiceStage控制台。 选择“环境管理
升级虚拟机Agent 本章节指导您为虚拟机类型环境下纳管的虚拟机升级虚拟机Agent。 前提条件 已完成虚拟机Agent安装且状态为“在线”,并且Agent有新版本。为虚拟机安装Agent,请参考安装虚拟机Agent。 升级虚拟机Agent 登录ServiceStage控制台。 选择
命名空间概述 命名空间简介 命名空间(Namespace)是对一组资源和对象的抽象整合。在同一个CCE集群内可创建不同的命名空间,不同命名空间中的数据彼此隔离。使得它们既可以共享同一个集群的服务,也能够互不干扰。例如可以将开发环境、测试环境的业务分别放在不同的命名空间。 命名空间的类别说明
对象存储服务 对象存储服务连接器用于对接华为云对象存储服务。 对象存储服务(Object Storage Service,简称OBS)是一个基于对象的海量存储服务,为您提供海量、安全、高可靠、低成本的数据存储能力。 创建对象存储服务连接 登录新版ROMA Connect控制台。
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型
日志提示“ValueError: label_map not match” 问题现象 日志提示“ValueError: label_map not match”,且打印出标签数据,如: ValueError: label_map not match. {1:'apple', 2:'
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” 问题现象 安装ModelArts SDK报错,完整报错信息“ERROR: Could not install packages due to
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地