正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询专属资源池作业列表 功能介绍 查询专属资源池作业列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name
查询DevServer实例详情 功能介绍 查询DevServer实例详情。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id
查询训练作业指定任务的运行指标 功能介绍 查询训练作业指定任务的运行指标。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs
总览Workflow工作流 功能介绍 获取Workflow工作流统计信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id
查询Workflow待办事项 功能介绍 获取Workflow待办列表。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id
管理开发环境实例 功能介绍 该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。 表1 参数说明 参数 是否必选
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快速了解如何在
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命令中的
调试与训练 单机单卡 单机多卡 多机多卡 父主题: 专属资源池训练
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
配置ModelArts Standard访问授权 快速配置ModelArts委托授权 创建IAM用户并授权使用ModelArts 父主题: ModelArts Standard准备工作
创建调试训练作业 使用PyCharm ToolKit创建并调试训练作业 父主题: 使用ModelArts Standard训练模型
服务预测失败,报错APIG.XXXX 请求在APIG(API网关)出现问题被拦截,报错APIG.XXXX。 常见报错: APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配 查看更多的
日志文件的大小达到限制 问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:90), process
自动学习训练作业失败 训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败。 首次请检查您的账户是否欠费。如果账号状态正常。请针对不同类型的作业进行排查。 针对图像分类、声音分类、文本分类的作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求
训练作业进程异常退出 问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里的退出码是用户的训练作业代码返回的
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下
日志提示“no socket interface found” 问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误: job0879f61e-job-base-pda
如何对OBS的文件重命名? 由于OBS管理控制台不支持对OBS的文件重命名,当您需要对OBS文件进行重命名时需要通过调用MoXing API实现,在已有的或者新创建的Notebook中,执行如下命令,通过接口对OBS中的文件进行重命名。 具体操作如下: 如下示例为将文件“obs_file.txt
数据集配额不正确 当前每个账号支持的数据集配额为100,新版数据集页面显示所有已创建的数据集,但是旧版数据集页面不显示新版数据集。所以旧版页面存在显示不完整的情况,可以前往新版数据集页面查看。 父主题: Standard数据管理