检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
出管道的具体信息。实例中“inputs”中“remote”下的“obs_url”表示从OBS桶中选择训练数据的OBS路径。实例中“outputs”中“remote”下的“obs_url”表示上传训练输出至指定OBS路径。 “spec”字段下的“flavor_id”表示训练作业所依
否 String 存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。
认的指标采集配置文件/etc/dcgm-exporter/dcp-metrics-included.csv,指标采集对象详见dcgm-exporter。如果采集对象不能满足要求,可通过定制镜像或挂载的方式使用自定义配置。 等待约1分钟,执行下面的命令获取GPU指标: curl l
获取训练作业日志的文件名 功能介绍 获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。 表1 参数说明 参数 是否必选
能正常打开创建页面,即可正常使用ModelArts。 验证OBS权限。 在左上角的服务列表中,选择OBS服务,进入OBS管理控制台。 在OBS管理控制台,单击右上角的“创建桶”,如果能正常打开页面,表示当前用户具备OBS的操作权限。 验证SWR权限。 在左上角的服务列表中,选择SWR服务,进入SWR管理控制台。
输入数据的名称,支持1到64位只包含英文、数字、下划线(_)和中划线(-)的字符。 type String 输入项类型。枚举值如下: dataset:数据集 obs:OBS data_selector:数据选择 data Object 输入项数据。 value Object 输入项的值。 表6 JobOutput
Cluster中的RANK_TABLE_FILE实际名称为 jobstart_hccl.json job_start_file = "jobstart_hccl.json" # job_start_file_path 路径默认为 "/user/config/jobstart_hccl.json"
Cluster中的RANK_TABLE_FILE实际名称为 jobstart_hccl.json job_start_file = "jobstart_hccl.json" # job_start_file_path 路径默认为 "/user/config/jobstart_hccl.json"
复制数据集到本地主要是为了防止长时间访问OBS容易导致OBS连接中断使得作业卡住,所以一般先将数据复制到本地再进行操作。 数据集复制有两种方式,推荐使用OBS路径复制。 OBS路径(推荐) 直接使用moxing的copy_parallel接口,复制对应的OBS路径。 ModelArts数据
查询训练作业日志 功能介绍 按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型
ma2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data |── train-00000-
“NCCL_SOCKET_IFNAME=bond0,eth0” 表4 OBS环境变量 变量名 说明 示例 S3_ENDPOINT OBS地址。 “S3_ENDPOINT=https://obs.region.myhuaweicloud.com” S3_VERIFY_SSL 访问OBS是否使用SSL。 “S3_VERIFY_SSL=0”
ma2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data |── train-00000-
数据传输周期,默认为30s。 表37 Remote 参数 参数类型 描述 obs RemoteObs object 数据实际输出到OBS。 表38 RemoteObs 参数 参数类型 描述 obs_url String 数据实际输出到OBS的路径。 表39 AlgorithmEngine 参数 参数类型
否 String 存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。
path String 工作路径。可选值如下: 如果type是OBS,source为OBS路径。 如果type是DATASET,source为数据集ID。 type String 工作路径的类型。可选值如下: OBS:OBS路径 DATASET:数据集 version_id String
job_count_limit Integer 用户还可以创建可视化作业的数量。 jobs jobs结构数组 可视化作业的属性列表,具体请参见表4。 quotas Integer 可视化作业的运行数量上限。 表4 jobs属性列表 参数 参数类型 说明 job_name String 可视化作业的名称。
果能正常打开页面,表示当前用户具备DEW的操作权限。 验证OBS权限。 在左上角的服务列表中,选择OBS服务,进入OBS管理控制台。 在OBS管理控制台,单击右上角的“创建桶”,如果能正常打开页面,表示当前用户具备OBS的操作权限。 验证SWR权限。 在左上角的服务列表中,选择SWR服务,进入SWR管理控制台。
path String 工作路径。可选值如下: 如果type是OBS,source为OBS路径。 如果type是DATASET,source为数据集ID。 type String 工作路径的类型。可选值如下: OBS:OBS路径 DATASET:数据集 version_id String
String 训练作业的数据集版本ID。 type String 数据集类型。 “obs”:表示使用OBS的数据。 “dataset”:表示使用数据集的数据。 data_url String OBS的桶路径。 表5 model_metric_list属性列表 参数 参数类型 说明