检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
÷ 推荐的单实例流量限制 1 更多选项 内容审核 选择是否打开内容审核,默认启用。启用此能力可阻止模型推理中有害内容的输入输出,但可能会对接口性能产生较大影响。 打开 事件通知 选择是否打开“事件通知”开关。 关闭 自动停止 当使用付费资源时,可以选择是否打开“自动停止”开关。 关闭
分析错误时:训练镜像先看日志,推理镜像先看API的返回。 可以通过命令查看容器输出到stdout的所有日志: docker logs -f 39c9ceedb1f6 一般在做推理镜像时,部分日志是直接存储在容器内部的,所以需要进入容器看日志。注意:重点对应日志中是否有ERROR(包括,容器启动时、API执行时)。
加额外的torchrun命令参数,或是覆盖预设的torchrun命令参数。例如配置torchrun命令中rdzv_conf参数的训练作业API环境变量的部分示例如下: "environments": { "MA_RUN_METHOD": "torchrun", "MA_EXTRA_TORCHRUN_PARAMS":