正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取训练作业支持的公共规格 功能介绍 获取训练作业支持的公共规格。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors
查询作业资源规格 功能介绍 查看指定作业类型的资源规格。 创建训练作业和预测作业需要指定资源规格。 URI GET /v1/{project_id}/job/resource-specs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是
创建调试训练作业 使用PyCharm ToolKit创建并调试训练作业 父主题: 使用ModelArts Standard训练模型
获取训练作业支持的AI预置框架 功能介绍 获取训练作业支持的AI预置框架。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/
obs:bucket:ListAllMyBuckets 创建批量服务。 按需配置。 边缘服务 CES ces:metricData:list 查看服务的监控指标。 按需配置。 IEF IEF Administrator 管理边缘服务。 按需配置。 创建自定义策略时,建议将项目级云服务和全局级云服
可选物理资源池和逻辑资源池。逻辑资源池与规格有关,如果无逻辑规格则不显示逻辑资源池。 作业类型 - 根据业务需要,选择该资源池支持的作业类型。 物理资源池:支持“开发环境”、“训练作业”和“推理服务”的作业类型。 逻辑资源池:仅支持“训练作业”的作业类型。 IPv6 - 开启IPv6功能。如果开启了此功能,
__init__.py | |- module_file.py 训练作业导入模块时日志出现“ImportError: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保
load_state_dict(state_dict) 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。
用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 project_id 是 String
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型
CodeLab计费:在体验CodeLab时,切换为付费规格后会收费,使用完后请在JupyterLab界面及时停止Notebook实例。 训练作业:训练作业运行时会收取费用,使用完请及时停止训练作业。同时,也需清理存储到OBS中的数据。 部署上线:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 请求参数 表2 请求Header参数 参数
请求消息 请求参数如表2所示。 表2 查询检索参数 参数 是否必选 参数类型 说明 per_page 否 Integer 指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,100]。 page 否 Integer 指定要查询页的索引,默认为1。 sortBy
训练作业参数配置 创建训练作业参数 查询训练作业参数列表 更新训练作业参数 删除训练作业参数 查询训练作业参数详情 父主题: 训练管理(旧版)
使用MoXing时,如何进行增量训练? 在Notebook中如何查看GPU使用情况 如何在代码中打印GPU使用信息 Ascend上如何查看实时性能指标? 不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗? JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系
00:12:43.145225 最大时间:2262-04-11 23:47:16.854775807,需注意上下界限。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
images.cuda() images = images.permute(0, 3, 1, 2).contigous() 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
objects 特定作业类型统计信息。 表4 WorkloadStatistics 参数 参数类型 描述 type String 作业类型。可选值如下: train:训练作业 infer:推理作业 notebook:Notebook作业 total Integer 作业个数。 status