检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题:
如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 方法二:出现如下图报错,是由于VS Code版本过低,建议升级VS Code版本为1.57.1或者最新版。 原因分析二
WorkflowSchedulePolicies 参数 参数类型 描述 on_failure String 定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 查询调度信息 GET https://{endpoint}/v2
Code插件后,再执行2。 图2 远端已上传 关闭VS Code所有窗口,回到ModelArts控制台Notebook实例界面,再次单击实例“操作”列的上的“更多>VS Code接入”按钮。 父主题: VS Code连接开发环境失败常见问题
Array of DataVolumesRes objects 数据。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。 表3 DataVolumesRes 参数 参数类型 描述 category String 存储类型。可选值为OBS。
WorkflowSchedulePolicies 参数 是否必选 参数类型 描述 on_failure 否 String 定时调度策略中的标记,失败时触发。 on_running 否 String 定时调度策略中的标记,running时触发。 响应参数 状态码: 201 表4 响应Body参数 参数 参数类型 描述
Integer 作业排队位置。 createTime Integer 作业创建时间。 gvk String 作业的k8s资源类型、分组和版本。 hostIps String 作业运行的节点IP列表,逗号分隔。 表5 resourceRequirement 参数 参数类型 描述 cpu String
service_id 是 String 服务ID。 表2 Query参数 参数 是否必选 参数类型 描述 node_id 否 String 待查询的边缘节点ID,仅当infer_type为edge时可指定,默认查询所有节点。 请求参数 表3 请求Header参数 参数 是否必选 参数类型
描述 auto_sync_dataset 否 Boolean 团队标注任务的标注结果是否自动同步至数据集。可选值如下: true:团队标注任务的标注结果自动同步至数据集(默认值) false:团队标注任务的标注结果不自动同步至数据集 data_sync_type 否 Integer
Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code Server on Host”,选择出问题的实例进行自动清除,然后重新进行连接。 图1 清除异常的实例 父主题: VS Code连接开发环境失败常见问题
of TmsTag objects TMS的标签结构体。 表3 TmsTag 参数 参数类型 描述 key String TMS标签的key。长度不能超过128个字符,首尾不能有空格,不能以_sys_开头。 value String TMS标签的value。长度不能超过255个字符。
如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 方法二:出现如下图报错,是由于VS Code版本过低,建议升级VS Code版本为1.57.1或者最新版。 原因分析二
执行nvidia_smi + wapper + prettytable命令。 用户可以将GPU信息显示操作看作一个装饰器,在模型训练过程中就可以实时的显示GPU状态信息。 def gputil_decorator(func): def wrapper(*args, **kwargs):
部署上线 自动学习中部署上线是将模型部署为什么类型的服务? 父主题: Standard自动学习
训练? 自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自动学习中偏好设置的各参数训练速度大概是多少 自动学习声音分类预测报错ERROR:input
-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 workspace_id 否 String 工作空间id。 support_app_code 否 Boolean 是否支持APP CODE。 auth_type 否 String API的认证方式。 枚举值如下:
value 否 Long 付费工作流可使用的时间值。 响应参数 状态码: 201 表4 响应Body参数 参数 参数类型 描述 result String 认证结果。 请求示例 对在线服务进行鉴权。设置付费工作流计费周期为“day”,付费工作流可使用的时间为“100”。 POST htt
Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架 父主题: 功能介绍
功能咨询 什么是自动学习? ModelArts自动学习与ModelArts PRO的区别 什么是图像分类和物体检测? 自动学习和订阅算法有什么区别? 父主题: Standard自动学习
云上迁移适配故障 无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错