检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。 表6 Worker 参数 参数类型 描述 create_time Long 创建时间。 description String 标注
路径或者用户已上传到DLI资源管理系统的类型为jar或pyFile的程序包名。 -cn / --class_name String 是 批处理作业的Java/Spark主类。 --name String 否 创建时用户指定的作业名称,不能超过128个字符。 --image String
property String 属性名。 req_uri String 批量任务中调用的推理路径。 result_type Integer 自动分组结果处理方式。可选值如下: 0:保存到OBS 1:保存到样本 samples Array of SampleLabels objects 需要进行自动标注的样本标注信息列表。
创建多机多卡的分布式训练(DistributedDataParallel) 本章节介绍基于PyTorch引擎的多机多卡数据并行训练。并提供了分布式训练调测具体的代码适配操作过程和代码示例。同时还针对Resnet18在cifar10数据集上的分类任务,给出了分布式训练改造(DDP)的完整代码示例,供用户学习参考。
的模型将存储至对应的“输出”目录中。 当训练作业的状态变为“运行失败”或“异常”时,可以单击训练作业的名称进入详情页面,通过查看日志等手段处理问题。 训练作业运行过程中将按照选择的资源进行计费。 父主题: 使用ModelArts Standard训练模型