检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Notebook使用场景 ModelArts提供灵活开放的开发环境,您可以根据实际情况选择。 ModelArts提供了CodeLab功能,一方面,一键进入开发环境,同时预置了免费的算力规格,可直接免费体验Notebook功能;另一方面,针对AI Gallery社区发布的Notebook
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “RuntimeError
Lite Server资源配置流程 在开通Lite Server资源后,需要完成相关配置才能使用,配置流程如下图所示。 图1 Lite Server资源配置流程图 表1 Server资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Server网络 Server资源开通后
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导(6.3.906) ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点,成功实现了工作流的精确定制和可靠复现。
使用VS Code创建并调试训练作业 由于AI开发者会使用VS Code工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境、贴近本地开发习惯地编写启动命令,ModelArts提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud,用户通过简易的操作
训练场景和方案介绍 Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训练过程
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码、
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.908-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
训练作业访问OBS时,日志提示“stat:403 reason:Forbidden” 问题现象 训练作业访问OBS时,出现如下报错: ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata
日志提示“RuntimeError: connect() timed out” 问题现象 使用pytorch进行分布式训练时,日志中出现报错“RuntimeError: connect() timed out”。 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据复制的
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象 训练作业失败,日志报出如下错误: RuntimeError: cuda runtime error (10) : invalid device ordinal
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f
使用预置镜像制作自定义镜像用于训练模型 使用预置框架构建自定义镜像原理介绍 如果先前基于预置框架且通过指定代码目录和启动文件的方式来创建的训练作业;但是随着业务逻辑的逐渐复杂,您期望可以基于预置框架修改或增加一些软件依赖的时候,可以使用预置框架构建自定义镜像,即在创建训练作业页面选择预置框架名称后
上传镜像 操作场景 客户端上传镜像,是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。 如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。