创建调试训练作业-华为云

AI开发平台MODELARTS-使用PyCharm ToolKit创建并调试训练作业:查看训练日志

查看训练日志查看训练日志有2种方式，在OBS查看和在PyCharm ToolKit工具中查看。在OBS查看训练日志提交训练作业时，系统将自动在您配置的OBS Path中，使用作业名称创建一个新的文件夹，用于存储训练输出的模型、日志和代码。例如“train-job-01”作业，提交作业时会在“test-modelarts2”桶下创建一个命名为“train-job-01”的文件夹，且此文件夹下分别新建了三个文件夹“output”、“log”、“code”，分别用于存储输出模型、日志和训练代码。“output”文件夹还会根据您的训练作业版本再创建子文件夹，结构示例如下。 test-modelarts2 |---train-job-01 |---output |---log |---code

AI开发平台MODELARTS 创建调试训练作业

AI开发平台MODELARTS-使用JupyterLab创建并调试训练作业:提交训练作业并调试

提交训练作业并调试当创建训练作业的参数配置完成后，单击“提交”，在信息确认页面单击“确定”，提交创建训练作业任务。在训练作业列表中，刚创建的训练作业状态为“等待中”。在训练作业列表中，当训练作业的状态变为“运行中”时，单击操作列的“打开”弹出JupyterLab页面，即可进行训练代码调试。 JupyterLab页面左侧会显示训练代码文件，JupyterLab的使用请参见JupyterLab简介及常用操作。当创建的调试训练作业开启了SSH远程开发时，在训练作业详情页获取“SSH远程开发”参数后的“密钥对”和SSH地址信息后，可以使用本地IDE远程连接到调试训练作业中进行代码调试。训练作业运行过程中将按照选择的资源进行计费。

AI开发平台MODELARTS 创建调试训练作业

AI开发平台MODELARTS-使用JupyterLab创建并调试训练作业:选择自定义算法创建方式

选择自定义算法创建方式只支持使用自定义镜像创建调试训练作业。表2 选择调试训练作业的创建方式参数名称说明创建方式固定选择“自定义算法”。启动方式固定选择“自定义”。镜像必填，填写容器镜像的地址。容器镜像地址的填写支持如下方式。选择自有镜像或他人共享的镜像：单击右边的“选择”，从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。选择公开镜像：直接输入SWR服务中公开镜像的地址。地址直接填写“组织名称/镜像名称:版本名称”，不需要带域名信息，系统会自动拼接域名地址。代码目录选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数，如果自定义镜像中已包含训练代码则不需要配置。需要提前将代码上传至OBS桶中，目录内文件总大小要小于或等于5GB，文件数要小于或等于1000个，文件深度要小于或等于32。训练代码文件会在训练作业启动的时候被系统自动下载到训练容器的“${MA_JOB_DIR}/demo-code”目录中，“demo-code”为存放代码目录的最后一级OBS目录。例如，“代码目录”选择的是“/test/code”，则训练代码文件会被下载到训练容器的“${MA_JOB_DIR}/code”目录中。运行用户ID 容器运行时的用户ID，该参数为选填参数，建议使用默认值1000。如果需要指定uid，则uid数值需要在规定范围内，专属资源池的uid范围是1~65535。同时，自定义镜像必须存在“/home/ma-user”目录，且“/home/ma-user”目录的属主为指定uid，属组为指定uid对应的gid。本地代码目录指定训练容器的本地目录，启动训练时系统会将代码目录下载至此目录。此参数可选，默认本地代码目录为“/home/ma-user/modelarts/user-job-dir”。工作目录训练时，系统会自动cd到此目录下执行启动文件。

AI开发平台MODELARTS 创建调试训练作业

AI开发平台MODELARTS-使用JupyterLab创建并调试训练作业:配置训练参数

配置训练参数训练过程中可以从OBS桶或者数据集中获取输入数据进行模型训练，训练输出的结果也支持存储至OBS桶中。创建训练作业时可以参考表3配置输入、输出、超参、环境变量等参数。表3 配置训练参数参数名称子参数说明输入参数名称算法代码需要通过“输入”的“参数名称”去读取训练的输入数据。建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配，请参见创建算法时的表4。数据集单击“数据集”，在ModelArts数据集列表中勾选目标数据集并选择对应的版本。训练启动时，系统将自动下载输入路径中的数据到训练运行容器。说明： ModelArts数据管理模块在重构升级中，对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。数据存储位置单击“数据存储位置”，从OBS桶中选择训练输入数据的存储位置。训练启动时，系统将自动下载输入路径中的数据到训练运行容器。获取方式以参数名称为“data_path”的训练输入为例，说明获取方式的作用。当参数的“获取方式”为“超参”时，可以参考如下代码来读取数据。 import argparse parser = argparse.ArgumentParser() parser.add_argument('--data_path') args, unknown = parser.parse_known_args() data_path = args.data_path 当参数的“获取方式”为“环境变量”时，可以参考如下代码来读取数据。 import os data_path = os.getenv("data_path", "") 输出参数名称算法代码需要通过“输出”的“参数名称”去读取训练的输出目录。建议设置为“train_url”。训练输出参数要与所选算法的“输出”参数匹配，请参见创建算法时的表5。数据存储位置单击“数据存储位置”，从OBS桶中选择训练输出数据的存储位置。训练过程中，系统将自动从训练容器的本地代码目录下同步文件到数据存储位置。说明：数据存储位置仅支持OBS路径。为避免数据存储冲突，建议选择一个空目录用作“数据存储位置”。获取方式以参数名称为“train_url”的训练输出为例，说明获取方式的作用。当参数的“获取方式”为“超参”时，可以参考如下代码来读取数据。 import argparse parser = argparse.ArgumentParser() parser.add_argument('--train_url') args, unknown = parser.parse_known_args() train_url = args.train_url 当参数的“获取方式”为“环境变量”时，可以参考如下代码来读取数据。 import os train_url = os.getenv("train_url", "") 预下载至本地目录选择是否将输出目录下的文件预下载至本地目录。不下载：表示启动训练作业时不会将输出数据的存储位置中的文件下载到训练容器的本地代码目录中。下载：表示系统会在启动训练作业时自动将输出数据的存储位置中的所有文件下载到训练容器的本地代码目录中。下载时间会随着文件变大而变长，为了防止训练时间过长，请及时清理训练容器的本地代码目录中的无用文件。如果要使用设置断点续训练，则必须选择“下载”。超参 - 超参用于训练调优。此参数由选择的算法决定，如果在算法中已经定义了超参，则此处会显示算法中所有的超参。超参支持修改和删除，状态取决于算法中的超参“约束”设置，详情请参见创建算法时的定义超参。说明：为保证数据安全，请勿输入敏感信息，例如明文密码。环境变量 - 根据业务需求增加环境变量。训练容器中预置的环境变量请参见管理训练容器环境变量。说明：为保证数据安全，请勿输入敏感信息，例如明文密码。自动重启 - 打开开关后，可以设置重启次数和是否启用无条件自动重启。打开自动重启开关后，当由于环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力，开启此功能前请确认代码已适配断点续训，操作指导请参见设置断点续训练。重启次数的取值范围是1~128，缺省值为3。创建训练后不支持修改重启次数，请合理设置次数。勾选无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。

AI开发平台MODELARTS 创建调试训练作业

AI开发平台MODELARTS-使用JupyterLab创建并调试训练作业:前提条件

前提条件已经将用于训练作业的数据上传至OBS目录。已经在OBS目录下创建了至少1个空的文件夹，用于存储训练输出的内容。 ModelArts不支持加密的OBS桶，创建OBS桶时，请勿开启桶加密。由于训练作业运行需消耗资源，为了避免训练失败请确保账户未欠费。确保使用的OBS目录与ModelArts在同一区域。检查是否配置了访问授权。如果未配置，请参见使用委托授权完成操作。已经上传镜像到SWR服务中。已经准备好训练作业的专属资源池。如需新建资源池请参见创建资源池。

AI开发平台MODELARTS 创建调试训练作业

AI开发平台MODELARTS-使用JupyterLab创建并调试训练作业:配置调试训练作业基本信息

配置调试训练作业基本信息在创建训练作业页面填写调试训练作业的基本信息。表1 调试训练作业的基本信息参数名称说明名称必填，训练作业的名称。系统会自动生成一个名称，可以根据业务需求重新命名，命名规则如下：支持1~64位字符。可以包含大小写字母、数字、中划线（-）或下划线（_）。描述训练作业的简介，便于在训练作业列表了解作业信息。设置实验将训练作业分类有序地放入实验中进行管理。如果选择“纳入新实验”，需要配置“新建实验名称”和“新建实验描述”。如果选择“纳入已有实验”，需要选择“实验名称”。如果选择“不纳入实验”，则不在实验中进行统一管理。作业模式创建调试训练作业时，必须选择“调试模型”。如果选择“生产模式”，则请参考创建生产训练作业创建生产训练作业。 SSH远程开发选择是否启用SSH远程开发功能。默认关闭，不启用SSH远程开发，只支持使用JupyterLab调试训练作业。打开后，启用SSH远程开发，则必须配置“密钥对”，此时支持使用JupyterLab或本地IDE调试训练作业。密钥对启用SSH远程开发时，必须配置密钥对。可以选择已有密钥对，也可以单击“立即创建”新建密钥对，具体操作请参见创建密钥对。说明：创建好的密钥对，请下载并妥善保管，使用本地IDE远程连接到调试训练作业时需要使用密钥对进行鉴权认证。训练应用程序默认使用JupyterLab，支持去勾选。创建调试作业时，建议SSH远程开发和JupyterLab至少启用一个。

AI开发平台MODELARTS 创建调试训练作业

云服务器内容精选

创建调试训练作业

7*24

备案

专业服务

退订

建议反馈

售前咨询热线