正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理开发环境实例 功能介绍 该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。 表1 参数说明 参数 是否必选
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命
调试与训练 单机单卡 单机多卡 多机多卡 父主题: 专属资源池训练
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
配置ModelArts Standard访问授权 快速配置ModelArts委托授权 创建IAM用户并授权使用ModelArts 父主题: ModelArts Standard准备工作
创建调试训练作业 使用PyCharm ToolKit创建并调试训练作业 父主题: 使用ModelArts Standard训练模型
建议停止Notebook,避免产生不必要的费用。 创建Notebook时,如果选择使用云硬盘EVS存储配置,实例不删除,云硬盘EVS会一直收费,建议及时停止并删除Notebook,避免产品不必要的费用。 在创建Notebook时,默认会开启自动停止功能,在指定时间内停止运行Notebook,避免资源浪费。
服务预测失败,报错APIG.XXXX 请求在APIG(API网关)出现问题被拦截,报错APIG.XXXX。 常见报错: APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配
日志文件的大小达到限制 问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:90), process
自动学习训练作业失败 训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败。 首次请检查您的账户是否欠费。如果账号状态正常。请针对不同类型的作业进行排查。 针对图像分类、声音分类、文本分类的作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求。
训练作业进程异常退出 问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下:
日志提示“no socket interface found” 问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误: job0879f61e-jo
什么是区域、可用区? 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region
如何对OBS的文件重命名? 由于OBS管理控制台不支持对OBS的文件重命名,当您需要对OBS文件进行重命名时需要通过调用MoXing API实现,在已有的或者新创建的Notebook中,执行如下命令,通过接口对OBS中的文件进行重命名。 具体操作如下: 如下示例为将文件“obs_file
数据集配额不正确 当前每个账号支持的数据集配额为100,新版数据集页面显示所有已创建的数据集,但是旧版数据集页面不显示新版数据集。所以旧版页面存在显示不完整的情况,可以前往新版数据集页面查看。 父主题: Standard数据管理
Moxing安装文件如何获取? Moxing安装文件不支持下载和用户自主安装。在ModelArts的Notebook和训练作业镜像中预置了Moxing安装包,用户可以直接引用。 父主题: 功能咨询
OOM导致训练作业失败 问题现象 因为OOM导致的训练作业失败,会有如下几种现象。 错误码返回137,如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
日志提示“No module name 'unidecode'” 问题现象 从mindspore开源gitee中master分支下载的tacotron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name 'unidecode'。 原因分析