检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
reward_attrs 参数 参数类型 描述 name String 指标名称。 mode String 搜索方向。 max指定时表示指标值越大越好; min指定时表示指标值越小越好。 regex String 指标正则表达式。 表19 search_params 参数 参数类型 描述
使用MoXing时,如何进行增量训练? 在Notebook中如何查看GPU使用情况 如何在代码中打印GPU使用信息 Ascend上如何查看实时性能指标? 不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗? JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系
reward_attrs 参数 参数类型 描述 name String 指标名称。 mode String 搜索方向。 max指定时表示指标值越大越好; min指定时表示指标值越小越好。 regex String 指标正则表达式。 表17 search_params 参数 参数类型 描述
sh"添加可执行权限。 ModelArts控制台上创建训练作业自定义镜像入口,默认以1000 uid用户来启动v2容器镜像,将ma-user的uid从1102改为1000,改变方式如下(假若需要sudo权限,可取消sudoers行的注释): v1训练作业环境变量迁移v2说明: v1的DLS_TA
获取训练作业支持的公共规格 功能介绍 获取训练作业支持的公共规格。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors
如何提升训练效率,同时减少与OBS的交互? 大量数据文件,训练过程中读取数据效率低? 使用Moxing时如何定义路径变量? 父主题: Standard训练作业
在数据标注管理页面,单击页面右上角“创建标注作业”,进入“创建标注作业”页面,根据需求创建不同类型的标注作业。 填写标注作业基本信息,标注作业的“名称”和“描述”。 根据您的需求,选择“标注场景”和“标注类型”。 图1 选择标注场景和标注类型 针对不同类型的标注作业,需填写参数不同,请参考如下类型标注作业对应的参数介绍。
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 下图中有四个场景,其中场景四为正常训练作业失败场景,其他三个场景下可开启容错功能进行训练作业自动恢复。 场景一:环境预检测失败、硬件检测出现故障,系统隔离所有故障节点并重新下发训练作业。 图1 预检失败&硬件故障
可选物理资源池和逻辑资源池。逻辑资源池与规格有关,如果无逻辑规格则不显示逻辑资源池。 作业类型 - 根据业务需要,选择该资源池支持的作业类型。 物理资源池:支持“开发环境”、“训练作业”和“推理服务”的作业类型。 逻辑资源池:仅支持“训练作业”的作业类型。 IPv6 - 开启IPv6功能。如果开启了此功能,
load_state_dict(state_dict) 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。
__init__.py | |- module_file.py 训练作业导入模块时日志出现“ImportError: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保
用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 project_id 是 String
00:12:43.145225 最大时间:2262-04-11 23:47:16.854775807,需注意上下界限。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
images.cuda() images = images.permute(0, 3, 1, 2).contigous() 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
objects 特定作业类型统计信息。 表4 WorkloadStatistics 参数 参数类型 描述 type String 作业类型。可选值如下: train:训练作业 infer:推理作业 notebook:Notebook作业 total Integer 作业个数。 status
更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表 查询超参搜索所有trial的结果 查询超参搜索某个trial的结果 获取超参敏感度分析结果 获取某个超参敏感度分析图像的路径
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练