检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表56 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
yaml”文件。 “config.yaml”文件用于配置pod,代码示例如下。代码中的“xxxx_train.sh”即为2修改的训练启动脚本。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: yourvcjobname
分析错误时:训练镜像先看日志,推理镜像先看API的返回。 可以通过命令查看容器输出到stdout的所有日志: docker logs -f 39c9ceedb1f6 一般在做推理镜像时,部分日志是直接存储在容器内部的,所以需要进入容器看日志。注意:重点对应日志中是否有ERROR(包括,容器启动时、API执行时)。
--listen --log-startup --disable-safe-unpickle --skip-prepare-environment --api 基于dockerfile进行build docker build -t webui:v1 . Step4 上传镜像到容器镜像服务 参考pull/push
0提供的文件系统作为训练作业所需的存储进行AI模型的训练和探索。同时提供OBS接口,支持从云外导入训练数据。 提供高性能文件客户端,满足重型训练作业中对存储高带宽诉求,同时提供OBS访问功能,同一份训练数据通过OBS接口导入到存储之后不需要再进相关转化,即可支持模型训练。 提供对象存储语义
务列表选中目标服务,在功能权限区域选中目标权限。 图4 普通模式 注意: 普通模式是细粒度控制的权限,由于MaaS调用ModelArts的接口通过委托授权,权限配置为普通模式时,缺少Modelarts的一些权限,导致创建MaaS作业失败。您可以在IAM控制台的“委托”页面,使用新
“策略内容”请参见ModelArts开发环境使用权限的自定义策略样例,ModelArts自定义策略中可以添加的授权项(Action)请参见《ModelArts API参考》>权限策略和授权项。 图4 开发环境的使用权限 如果您需要对除ModelArts和OBS之外的其他服务授权,IAM支持服务的所有策略请参见ModelArts
ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。 自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。 命令方式采集自定义指标数据 用于创建自定义指标采集POD的YAML文件示例如下。 apiVersion: v1 kind: Pod metadata:
训练对象,该对象包含job_id等属性,对训练作业的查询、更新、删除等操作时,可通过job_instance.job_id获取训练作业ID。 表7 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
复制单个大文件5G以上时可采用: from moxing.framework.file import file_io 查看当前moxing调用的接口版本:file_io._LARGE_FILE_METHOD,如果输出值为1则为V1版本,如果输出值为2,则为V2版本。 V1版本修改:file_io
einops==0.8.0 torchsde==0.2.6 aiohttp==3.10.5 omegaconf==2.3.0 fastapi==0.115.0 uvicorn==0.30.6 spandrel==0.4.0 kornia==0.7.3 修改comfyui 源码
flow/log/” 用于存储训练日志文件。 Step2 创建数据集并上传至OBS 使用网站https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz,下载“mnist.npz”文件并上传至OBS桶的
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
加额外的torchrun命令参数,或是覆盖预设的torchrun命令参数。例如配置torchrun命令中rdzv_conf参数的训练作业API环境变量的部分示例如下: "environments": { "MA_RUN_METHOD": "torchrun", "MA_EXTRA_TORCHRUN_PARAMS":
分析错误时:训练镜像先看日志,推理镜像先看API的返回。 可以通过命令查看容器输出到stdout的所有日志: docker logs -f 39c9ceedb1f6 一般在做推理镜像时,部分日志是直接存储在容器内部的,所以需要进入容器看日志。注意:重点对应日志中是否有ERROR(包括,容器启动时、API执行时)。
Standard场景下选择“ModelArts Standard(标准版)”。 “ModelArts Lite Elastic Cluster(原生接口)”用于ModelArts Lite Cluster场景,相关资料请见《ModelArts Lite Cluster用户指南》。该参数仅在贵阳一区域显示。