检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
策略及授权项说明 如果您需要对您所拥有的ModelArts进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为云帐号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用ModelArts
InternVL2基于DevServer适配PyTorch NPU训练指导(6.3.909) 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展InternVL2-26B和InternVL2-8B模型的训练过程,包括
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导(6.3.909) 本文档主要介绍如何在DevServer环境中部署Stable Diffusion模型对应SD1.5和SDXL的ComfyUI、Webui和Diffusers
训练作业容错检查 用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发训练作业
查询预置算法 功能介绍 查看预置模型的详情。 URI GET /v1/{project_id}/built-in-algorithms 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目
Open-Clip基于DevServer适配PyTorch NPU训练指导 Open-Clip广泛应用于AIGC和多模态视频编码器的训练。 方案概览 本方案介绍了在ModelArts的DevServer上使用昇腾NPU计算资源开展Open-clip训练的详细过程。完成本方案的部署,
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
创建IAM用户并授权使用MaaS 配置ModelArts委托授权章节中介绍的一键式自动授权方式创建的委托的权限比较大,基本覆盖了依赖服务的全部权限。如果华为云账号已经能满足您的要求,则不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用MaaS服务的功能。 ModelArts
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
创建多机多卡的分布式训练(DistributedDataParallel) 本章节介绍基于PyTorch引擎的多机多卡数据并行训练。并提供了分布式训练调测具体的代码适配操作过程和代码示例。同时还针对Resnet18在cifar10数据集上的分类任务,给出了分布式训练改造(DDP)的完整代码示例
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
基于MindSpore Lite的模型转换 迁移推理业务的整体流程如下: 模型准备 转换关键参数准备 模型转换 推理应用适配 主要通过MindSpore Lite(简称MSLite)进行模型的转换,进一步通过MindSpore Runtime支持昇腾后端的能力来将推理业务运行到昇腾设备上
使用MaaS调优模型 在ModelArts Studio大模型即服务平台完成模型创建后,可以对模型进行调优,获得更合适的模型。 场景描述 从“我的模型”中选择一个模型进行调优,当模型完成调优任务后会产生一个新的模型,呈现在“我的模型”列表中。 约束限制 表1列举了支持模型调优的模型
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到
使用PyCharm手动连接Notebook 本地IDE环境支持PyCharm和VS Code。通过简单配置,即可用本地IDE远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 本章节介绍基于PyCharm环境访问Notebook的方式。 前提条件 本地已安装
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest