检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
后执行ls /home/ma-user/work命令查看下载到Notebook中的文件。或者在JupyterLab左侧导航中显示下载的文件,如果没有显示,请刷新后查看,如图14所示。 图13 打开Terminal 图14 查看下载到Notebook中的文件 异常处理 通过OBS下
请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 email 否 String 团队标注成员邮箱。 samples 否 Array of SampleLabels objects 更新的样本列表。 表3 SampleLabels 参数 是否必选 参数类型 描述 labels
在创建自动学习项目页面,单击数据集输入位置右侧的“”按钮,进入“数据集输入位置”对话框。 单击“新建对象存储服务(OBS)桶”,进入创建桶页面,具体请参见《对象存储服务控制台指南》中的创建桶章节。 图1 快速创建OBS桶 桶创建完成后,选择对应桶名称,单击“新建文件夹”,在“新
在创建自动学习项目页面,单击数据集输入位置右侧的“”按钮,进入“数据集输入位置”对话框。 单击“新建对象存储服务(OBS)桶”,进入创建桶页面,具体请参见《对象存储服务控制台指南》中的创建桶章节。 图1 快速创建OBS桶 桶创建完成后,选择对应桶名称,单击“新建文件夹”,在“新
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。 在“驱动升级”弹窗中,会
ples 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 email 否
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
计费说明 在ModelArts进行AI全流程开发时,会产生计算资源的计费,计算资源为进行运行自动学习、Workflow、开发环境、模型训练和部署服务的费用。具体内容如表1所示。 表1 计费项 计费项 计费项说明 适用的计费模式 计费公式 计算资源 专属资源池 使用计算资源的用量。 具体费用可参见ModelArts价格详情。
属性 描述 是否必填 数据类型 name 数据集导入节点的输出名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符)。同一个Step的输出名称不能重复。 是 str 表4 ImportDataInfo 属性 描述 是否必填 数据类型
训练作业中存在2个代码目录,一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR,一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。 图1 修改区分训练作业中2个代码目录 使用环境变量SAVE_PATH重新覆
新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用Mode
(如算法超参)通过Placeholder的形式透出,支持设置默认值,供用户修改配置使用。 属性总览(Placeholder) 属性 描述 是否必填 数据类型 name 参数名称,需要保证全局唯一。 是 str placeholder_type 参数类型,与真实数据类型的映射关系如下:
发布和管理AI Gallery镜像 托管镜像到AI Gallery 发布镜像到AI Gallery 管理AI Gallery镜像 父主题: AI Gallery(新版)
AI Gallery(旧版) AI Gallery简介 免费资产和商用资产 入驻AI Gallery 我的Gallery介绍 订阅使用 发布分享 参加活动 合作伙伴 需求广场
Manifest管理 Manifest管理概述 解析Manifest文件 创建和保存Manifest文件 解析Pascal VOC文件 创建和保存Pascal VOC文件 父主题: 数据管理
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
Lite Server使用前必读 Lite Server使用流程 Lite Server高危操作一览表 Lite Server算力资源和镜像版本配套关系
Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表 不同机型的对应的软件配套版本