检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts Standard自动学习所创建项目一直在扣费,如何停止计费? 对于使用公共资源池创建的自动学习作业: 登录ModelArts控制台,在自动学习作业列表中,删除正在扣费的自动学习作业。在训练作业列表中,停止因运行自动学习作业而创建的训练作业。在“在线服务”列表中
ers-monitoring和ers-manger有什么区别? ers-monitoring是安装监控插件cluster-monitoring所用的命名空间,如果想要监控CCE容器集群状态,需要安装cluster-monitoring监控插件,具体请参见使用插件模板为容器集群安装
ERROR - fail to load 问题现象 judge日志中出现ERROR - fail to load错误提示,如下图 可能原因 日志中提示加载模型失败,可能是因为容器在启动时加载模型失败。 解决方法 依次单击“初始化Daemon”、“注册任务”和“启动任务”,重启ju
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
通过OBS创建模型时,构建日志中提示pip下载包失败 问题现象 通过OBS创建模型构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi
打开Notebook实例提示token不存在或者token丢失如何处理? 问题现象 把已打开的Notebook url发送给他人使用,他人无法打开,报错“……lost token or incorrect token……”。 原因分析 原因是由于其他人没有此账号的令牌导致。 解决方案
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象 训练日志中出现AttributeError: module '***' has no attribute '***'错误。如:AttributeError:
在ModelArts的Notebook中安装远端插件时不稳定要怎么办? 方法一:离线包安装方式(推荐) 到VS Code插件官网vscode_marketplace搜索待安装的Python插件,Python插件路径。 单击进入Python插件的Version History页签后,下载该插件的离线安装包,如图所示。
JSON构造器 JSON构造器为用户提供构造JSON对象的能力,用户通过界面化操作可以构造出复杂的JSON结构,也可以通过“切换为源码模式”,将复杂的JSON格式数据转换到界面显示,包含“构造JSON对象”执行动作。 构造JSON对象 输入参数 用户配置构造JSON对象源码模式执行动作,相关参数说明如表1所示。
全链路流量控制概述 仅“华东-上海一”、“亚太-新加坡”区域支持全链路流量控制功能。 背景信息 在一个存在多个微服务组件的应用体系中,对其中一个微服务组件进行版本升级发布时,会涉及到其他微服务组件版本的变动升级。所以要求在灰度验证时能够使得灰度流量同时经过涉及到的所有微服务组件灰
系统管理 系统管理概述 账号管理 角色管理 父主题: 使用微服务引擎
开启/关闭灰度泳道流量 根据实际业务需要,您可以开启/关闭指定灰度泳道流量。 前提条件 待操作灰度泳道所在泳道组流量入口网关已配置基于内容的路由配置,请参考配置泳道组流量入口网关路由(基于内容配置)。 开启/关闭灰度泳道流量 登录ServiceStage控制台。 单击“全链路流量控制”。
统一集成认证 用户管理 集成管理 组织管理 角色管理 权限管理 授权管理 日志管理 父主题: IPDCenter基础服务使用指南
查询流程实例 流程运行服务中的“流程管理 > 流程实例”是为运行服务管理员提供的流程管理功能。运行服务管理员可以在此页面查询当前应用的所有流程实例,并对执行异常的流程实例进行干预操作。 例如,将已提交的流程进行批量挂起或批量删除,选择某一条流程实例进行挂起/激活、转审、删除等操作。
run.sh脚本测试ModelArts训练整体流程 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下:
Bert基于DevServer适配MindSpore Lite推理指导(6.3.910) 方案概览 本方案介绍了在ModelArts的DevServer上使用昇腾Atlas 300I Duo推理卡计算资源,部署Bert-base-chinese模型推理的详细过程。完成本方案的部署
通过调整模型参数对异常告警调优 由于超参设置或是数据特征发生变化,导致预测的数据不够准确,出现误告警,可以通过调整模型参数,对生成的异常告警进行调优。本章节介绍不同类型异常告警及调优方法。 调优配置方法 在“异常检测”页面,单击异常检测任务所在行“操作”列的“模型”,默认显示“算法配置”页签,参考表1配置参数。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
修改训练作业优先级 使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。 什么是训练作业优先级 在用户运行训练作业过程中,需要对训练作业做优先级划分。比如有一些任务是低优先级