检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Network is unreachable’ 原因分析 出现该问题的可能原因如下: 因为安全性问题,ModelArts内部训练机器不能访问外网。 处理方法 将pretrained改成false,提前下载好预训练模型,加载下载好的预训练模型位置即可,可参考如下代码。 import torch
新知识来避免这个问题。 增量训练在很多领域都有应用,比如自然语言处理、计算机视觉和推荐系统等。它使得AI系统能够更加灵活和适应性强,更好地应对现实世界中不断变化的数据环境。 ModelArts Standard中如何实现增量训练 增量训练是通过Checkpoint机制实现。 Ch
ices_out_cuda_frame failed with error code 0” 训练作业失败,返回错误码139 训练作业失败,如何使用开发环境调试训练代码? 日志提示“ '(slice(0, 13184, None), slice(None, None, None))'
第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。 处理方法 通过Notebook调试。 安装时指定版本。如:pip install xxx==1.x.x 第三方pip源可能随时更新,可通过制作
用户给ModelArts的委托中没有SWR相关操作权限 用户为子账号,没有主账号SWR的权限 使用的是非自己账号的镜像 使用的镜像为公开镜像 处理方法 到SWR检查下对应的镜像是否存在,对应镜像的镜像地址是否和实际地址一致,大小写,拼写等是否一致。 检查用户给ModelArts的委托
${model_name} # 模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune #
复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config.yaml所在路径,并执行以下命令。
0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集,数据库名字。 input String 表格数据集,HDFS路径。例如/datasets/demo。 ip String
常见问题 首次使用ModelArts如何配置授权? 直接选择“新增委托”中的“普通用户”权限即可,普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 如何获取访问密钥AK/SK? 如果在其他功能(
无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号,与实际选择的卡ID不匹配。 处理方法 尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量,用系统默认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格
re-initialize CUDA in forked subprocess 原因分析 出现该问题的可能原因如下: multiprocessing启动方式有误。 处理方法 可以参考官方文档,如下: """run.py:""" #!/usr/bin/env python import os import torch
失败。 重复打印日志,该日志表示正在读取远端存在的文件,当文件列表读取完成以后,开始下载数据。如果文件比较多,那么该过程会消耗较长时间。 处理方法 在创建训练作业时,数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。
常见问题 首次使用ModelArts如何配置授权? 直接选择“新增委托”中的“普通用户”权限即可,普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 如何获取访问密钥AK/SK? 如果在其他功能(
logs OR erro*”。 标签 展示服务已添加的标签。支持添加、修改、删除标签。 标签详细用法请参见ModelArts如何通过标签实现资源分组管理。 Cloud Shell 允许用户使用ModelArts控制台提供的CloudShell登录运行中在线服务实例容器,详情请见使用CloudShell调试在线服务实例容器。
训练创建新的作业。 旧版训练管理是否停止新购? 是的,旧版训练管理将于2023年6月30日 00:00(北京时间)正式退市。 旧版训练管理如何升级到新版训练? 请参考新版训练指导文档(模型训练)来体验新版训练。 旧版训练迁移至新版训练需要注意哪些问题? 新版训练和旧版训练的差异主
Lite的基础功能和用法。 图6 ResNet50模型迁移到Ascend上进行推理 Stable Diffusion模型迁移到Ascend上进行推理:介绍如何将Stable Diffusion模型通过MSLite进行转换后,迁移在昇腾设备上运行。 图7 Stable Diffusion模型迁移到Ascend上进行推理
响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
otebook。 部署推理服务 在Notebook调试环境中部署推理服务 介绍如何在Notebook中配置NPU环境,部署并启动推理服务,完成精度测试和性能测试。 在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。 父主题: 主流开源大模
化部署环境,提升昇腾云在图像生成和编辑场景下的竞争力。 本章节介绍SDXL&SD 1.5模型的Controlnet训练过程。 Step1 处理fill50k数据集 使用ma-user用户在容器上执行如下命令解压数据集。 cd /home/ma-user/datasets/fill50k