检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练中途卡死 问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因
创建训练作业 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在Mod
”和“指标效果”。 单击操作列的“更多 > 删除任务”,可以删除微调任务,但是微调获得的新模型不会被删除。 查看训练效果 启动模型微调任务后,在微调大师列表单击操作列的“任务详情”,在弹窗中选择“指标效果”页签,可以查看训练效果。 表2 训练效果的指标介绍 指标名称 指标说明 NPU/GPU利用率
在ModelArts使用自定义镜像创建训练作业时如何激活conda环境? 由于训练作业运行时不是交互式的shell环境,因此无法直接使用“conda activate”命令激活指定的conda环境。但是,在自定义镜像中可参考以下命令激活conda环境: source /home/
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。 表2 调用训练接口失败响应参数 参数 类型 描述
reward_attrs 参数 参数类型 描述 name String 指标名称。 mode String 搜索方向。 max指定时表示指标值越大越好; min指定时表示指标值越小越好。 regex String 指标正则表达式。 表17 search_params 参数 参数类型 描述
及输出数据的存储位置。 训练作业运行成功之后,在训练作业列表中,您可以单击作业名称,查看该作业的详情。在“日志”页签搜索输入输出参数名称获取参数信息。 如果需在训练中获取“train_url”、“data_url”和“test”参数的值,可在训练作业的启动文件中添加以下代码获取:
拷贝文件夹时可采用: mox.file.copy_parallel(threads=0,is_processing=False) 父主题: 训练作业卡死
通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用ModelStep来构建模型注册节点,ModelStep结构如下:
属资源池的训练作业才能正常挂载SFS。因此,当训练作业挂载SFS失败时,可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS Turbo的名称 登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS
管理训练作业版本 训练作业是否支持定时或周期调用? 父主题: Standard训练作业
ok目录code_dir打包上传到obs_path中。 准备训练输出,与单机训练作业调试4相同。 查看训练支持的AI框架,与单机训练作业调试5相同。 保存当前Notebook为新镜像,与单机训练作业调试9相同。 Estimator初始化。 from modelarts.estimatorV2
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 问题分析 创建训练作业选择的代码目录有大小和文件个数限制。 解决方法 将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。 父主题: 创建训练作业
故障检测:通过os-node-agent插件在系统内周期性巡检故障特征,及时发现节点故障。 指标采集:通过os-node-agent插件采集GPU/NPU利用率指标等重要的观测数据,上报到租户侧AOM。 节点运维:授权后,通过os-node-agent插件执行诊断脚本,进行故障定位定界。 父主题:
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Snt9处理器的AI训练
在JupyterLab中使用MindInsight可视化作业 ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 MindInsight能可视化展现出训
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 update_job_configs请求参数说明 参数 是否必选
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
String 训练作业选择的引擎版本,请参考查询引擎规格列表。 user_image_url 否 String 自定义镜像训练作业的自定义镜像的SWR-URL。 user_command 否 String 自定义镜像训练作业的启动命令。 log_url 否 String 训练作业日志的保存