检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
成功时无此字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例 如下以获取“job_id”为10,“version_id”为10的作业日志文件为例。 GET https://endpoint/
否 Array<Object> 训练作业的运行参数,为“label-value”格式,该样例请参考请求示例;当为自定义镜像训练作业的时候,此参数为容器环境变量。详细请参见表4 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url
删除工作空间 功能介绍 删除工作空间。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{project_id}/workspaces/{workspace_id}
模型管理 创建模型失败,如何定位和处理问题? 导入模型提示该账号受限或者没有操作权限 用户创建模型时构建镜像或导入文件失败 创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的? 通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 通过O
_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。 等待训练作业是否变成“已完成”状态。 是,故障处理完成。 否,则联系技术支持排查节点状态。
Array<Object> 训练作业的运行参数,为“label-value”格式;当为自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考表4。 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url 否 String 训练作业需要的数据集OBS
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
模型训练 > 训练作业”,进入训练作业管理页面。 单击右上角“创建训练作业”进入创建训练作业页面,在“环境变量”中设置“MA_MOXING_FWVER=2.2.8.0aa484aa”以安装最新moxing framework版本,其他参数填写请参见创建训练作业。 配置完成后,可以在训练作业脚本中使用“moxing
String 训练作业参数的名称。 config_desc String 训练作业参数的描述信息。 worker_server_num Integer 训练作业worker的个数。 app_url String 训练作业的代码目录。 boot_file_url String 训练作业的代码启动文件。
当对创建的训练作业不满意时,您可以单击操作列的重建,重新创建训练作业。在重创训练作业页面,会自动填入上一次训练作业设置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。 停止训练作业 在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作业,您可以单击“操作”列的“终止”,停止正在运行中的训练作业。
训练作业一直在等待中(排队)? 训练作业状态一直在等待中状态表示当前所选的资源池规格资源紧张,作业需要进行排队,请耐心等待。如想降低排队时间,根据您所选资源池的类型,有以下建议: 公共资源池: 公共资源池资源较少,高峰期如举办相关活动时会存在资源不足情况。有以下方法可以尝试: 如
ma-user 其他现象,可以在已有的训练故障案例查找。 建议与总结 用户使用自定义镜像训练作业时,建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。 父主题: 训练作业运行失败
训练作业性能问题 训练作业性能降低 父主题: 训练作业
查看训练作业资源占用情况 约束限制 训练作业的资源占用情况系统会自动保存30天,过期会被清除。 如何查看训练作业资源使用详情 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单
创建训练作业 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在Mod
及输出数据的存储位置。 训练作业运行成功之后,在训练作业列表中,您可以单击作业名称,查看该作业的详情。在“日志”页签搜索输入输出参数名称获取参数信息。 如果需在训练中获取“train_url”、“data_url”和“test”参数的值,可在训练作业的启动文件中添加以下代码获取:
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
ModelArts镜像构建、镜像注册、查询已注册镜像信息等 obs-copy 本地和OBS文件/文件夹间的相互复制 ma-job ModelArts训练作业管理,包含作业提交、资源查询等 dli-job DLI Spark任务提交及资源管理 auto-completion 命令自动补全 父主题:
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 问题分析 创建训练作业选择的代码目录有大小和文件个数限制。 解决方法 将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。 父主题: 创建训练作业
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下: