检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
initialization:CUDA unknown error 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA
资源池 创建资源池失败 Standard资源池节点故障定位 专属资源池关联SFS Turbo显示异常
训练作业性能问题 训练作业性能降低 父主题: 训练作业
资源管理 查询OS的配置参数 查询插件模板 查询节点列表 批量删除节点 批量重启节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表,可通过标签、资源池状态筛选查询资源池列表 查询资源池 删除资源池
训练作业参数配置 创建训练作业参数 查询训练作业参数列表 更新训练作业参数 删除训练作业参数 查询训练作业参数详情 父主题: 训练管理(旧版)
权限策略和授权项 策略及授权项说明 数据管理权限 开发环境权限 训练作业权限 模型管理权限 服务管理权限 工作空间管理权限 DevServer权限
如何调用API 构造请求 认证鉴权 返回结果
应用示例 创建图像分类数据集并进行标注任务 创建并完成图像分类的智能标注任务 开发环境的应用示例 以PyTorch框架创建训练作业(新版训练) 创建和修改工作空间 管理ModelArts服务的委托授权
配额管理 查询OS的配额
节点池管理 查询节点池列表 创建节点池 查询指定节点池详情 更新节点池 删除节点池 查询节点池的节点列表
Workflow工作流管理 获取Workflow工作流列表 新建Workflow工作流 删除Workflow工作流 查询Workflow工作流 修改Workflow工作流 总览Workflow工作流 查询Workflow待办事项 在线服务鉴权 创建在线服务包 获取Execution列表
工作空间管理 查询工作空间详情 修改工作空间 删除工作空间 查询工作空间配额 修改工作空间配额 查询工作空间列表 创建工作空间
smn:topic:publish obs:object:PutObject obs:object:GetObject obs:object:GetObjectVersion obs:bucket:HeadBucket obs:object:DeleteObject obs:object:GetObject
发布和管理AI Gallery镜像 托管镜像到AI Gallery 发布镜像到AI Gallery 管理AI Gallery镜像 父主题: AI Gallery(新版)
AI Gallery(旧版) AI Gallery简介 免费资产和商用资产 入驻AI Gallery 我的Gallery介绍 订阅使用 发布分享 参加活动 合作伙伴 需求广场
通过团队标注方式标注数据 团队标注使用流程 创建和管理团队 创建团队标注任务 审核并验收团队标注任务结果 管理团队和团队成员 父主题: 标注ModelArts数据集中的数据
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
开始执行导出操作。 “数据来源”:选择新数据集。 “名称”:新数据集名称。 “保存路径”:表示新数据集的输入路径,即当前数据导出后存储的OBS路径。 “输出路径”:表示新数据集的输出路径,即新数据集在完成标注后输出的路径。“输出路径”不能与“保存路径”为同一路径,且“输出路径”不能是“保存路径”的子目录。
模型训练高可靠性 训练作业容错检查 训练日志失败分析 训练作业卡死检测 训练作业重调度 设置断点续训练 设置无条件自动重启 设置训练故障优雅退出 父主题: 使用ModelArts Standard训练模型
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题: