检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CodeLab计费:在体验CodeLab时,切换为付费规格后会收费,使用完后请在JupyterLab界面及时停止Notebook实例。 训练作业:训练作业运行时会收取费用,使用完请及时停止训练作业。同时,也需清理存储到OBS中的数据。 部署上线:模型部署为在线服务、边缘服务时,会收取费用,使用完请及时停止服
Notebook实例中的数据或代码文件存储在OBS中。 训练模型 训练作业使用的数据集存储在OBS中。 训练作业的运行脚本存储在OBS中。 训练作业输出的模型存储在指定的OBS中。 训练作业的过程日志存储在指定的OBS中。 AI应用管理 训练作业结束后,其生成的模型存储在OBS中,创建AI应用时,从OBS中导入已有的模型文件。
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 下图中有四个场景,其中场景四为正常训练作业失败场景,其他三个场景下可开启容错功能进行训练作业自动恢复。 场景一:环境预检测失败、硬件检测出现故障,系统隔离所有故障节点并重新下发训练作业。 图1 预检失败&硬件故障
__init__.py | |- module_file.py 训练作业导入模块时日志出现“ImportError: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保
获取训练作业支持的公共规格 功能介绍 获取训练作业支持的公共规格。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors
用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 请求参数 表2 请求Header参数 参数
请求消息 请求参数如表2所示。 表2 查询检索参数 参数 是否必选 参数类型 说明 per_page 否 Integer 指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,100]。 page 否 Integer 指定要查询页的索引,默认为1。 sortBy
下载代码目录失败 问题现象 训练作业运行时下载失败,出现如下报错,请参见图1: ERROR:modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败 原因分析 在创建训练作业时指定的代码目录不存在导致训练失败。
ModelArts Standard训练作业和模型部署如何收费? Standard中训练作业如何收费? 如果您使用的是公共资源池,则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”(运行时长精确到秒)。 如果您使用的是专属资源池,则训练作业就不再进行单独计费。由专属资源池进行收费。
Notebook实例中的数据或代码文件存储在OBS中。 训练模型 训练作业使用的数据集存储在OBS中。 训练作业的运行脚本存储在OBS中。 训练作业输出的模型存储在指定的OBS中。 训练作业的过程日志存储在指定的OBS中。 AI应用管理 训练作业结束后,其生成的模型存储在OBS中,创建AI应用时,从OBS中导入已有的模型文件。
Moxing安装文件如何获取? Moxing安装文件不支持下载和用户自主安装。在ModelArts的Notebook和训练作业镜像中预置了Moxing安装包,用户可以直接引用。 父主题: 功能咨询
获取训练作业事件列表 功能介绍 获取训练作业事件列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-j
sh"添加可执行权限。 ModelArts控制台上创建训练作业自定义镜像入口,默认以1000 uid用户来启动v2容器镜像,将ma-user的uid从1102改为1000,改变方式如下(假若需要sudo权限,可取消sudoers行的注释): v1训练作业环境变量迁移v2说明: v1的DLS_TA
用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 project_id 是 String
如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。 以下为使用EVS挂载
欠拟合的解决方法有哪些? 模型复杂化。 对同一个算法复杂化。例如回归模型添加更多的高次项,增加决策树的深度,增加神经网络的隐藏层数和隐藏单元数等。 弃用原来的算法,使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归,用随机森林来代替决策树。 增加更多的特征,使输入数据具有更强的表达能力。
获取自动化搜索作业yaml模板的信息 功能介绍 获取自动化搜索作业yaml模板的信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{projec
训练作业参数配置 创建训练作业参数 查询训练作业参数列表 更新训练作业参数 删除训练作业参数 查询训练作业参数详情 父主题: 训练管理(旧版)
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“