搜索_华为云

Finetune训练 - AI开发平台ModelArts

sd-scripts vim run_finetune.sh vim kohya_finetune.toml python finetune/make_captions.py {数据集路径pokemon-dataset路径} python finetune/merge_captions_to_metadata

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
Finetune训练 - AI开发平台ModelArts

sd-scripts vim run_finetune.sh vim kohya_finetune.toml python finetune/make_captions.py {数据集路径pokemon-dataset路径} python finetune/merge_captions_to_metadata

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

906版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。推理部署使用的服务框架是vLLM。vLLM支持v0.4.2版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持的模型列表、对应的开源权重获取地址如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
日志提示"Permission denied" - AI开发平台ModelArts

可能原因是用户使用的启动脚本为旧版本的run_train.sh，脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。可能原因是使用Python file接口并发读写同一文件。处理方法对挂载盘的数据加权限，可以改为与训练容器内相同的用户组（1000），假如/nas盘是挂载路径，执行如下代码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-group/per-channel, W8A16 per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

lArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArt

帮助中心 > AI开发平台ModelArts > 产品介绍
查看Notebook实例事件 - AI开发平台ModelArts

{conda_path}）重要 FailedToPullImageReason Failed to pull image. Please make sure the image exists in SWR repo, otherwise contact SRE to check node

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
创建训练作业 - AI开发平台ModelArts

String 训练作业的数据集ID，可参考数据管理获取。需要与dataset_version_id同时出现，但是不可与inputs同时出现。 dataset_version_id 否 String 训练作业的数据集版本ID，可参考数据管理获取。需要与dataset_id同时出现，但是不可与inputs同时出现。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

sudo apt-get autoremove --purge *nccl* 删除原nccl-test的编译后文件。由于nccl-test make编译也是基于当前cuda12.0版本的。当cuda版本更换后，需要重新编译，因此删除它。默认该文件在/root/nccl-tests直接删除即可。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

5。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持的模型列表、对应的开源权重获取地址如表1所示。表1 支持的模型列表和权重获取地址序号支持模型支持模型参数量开源权重获取地址 1 Llama llama-7b https://huggingface.co/huggyllama/llama-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
如何在Notebook中安装外部库？ - AI开发平台ModelArts

打开一个Notebook实例，进入到Launcher界面。在“Other”区域下，选择“Terminal”，新建一个terminal文件。在代码输入栏输入以下命令，获取当前环境的kernel，并激活需要安装依赖的python环境。 cat /home/ma-user/README source /home

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
训练作业运行失败排查指导 - AI开发平台ModelArts

查看训练作业的“日志”，出现报错“ERROR:root:label_map.pbtxt cannot be found. It will take a long time to open every annotation files to generate a tmp label_map

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-group/per-channel, W8A16 per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
如何在CodeLab上安装依赖？ - AI开发平台ModelArts

在总览页面进入CodeLab。在“Other”区域下，选择“Terminal”，新建一个terminal文件。在代码输入栏输入以下命令，获取当前环境的kernel，并激活需要安装依赖的python环境。 cat /home/ma-user/README source /home

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > CodeLab
ModelArts权限管理基本概念 - AI开发平台ModelArts

lArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArt

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。示例： |---project_root #代码根目录 |---BootfileDirectory

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
从OBS目录导入数据到数据集 - AI开发平台ModelArts

“导入路径”：数据存储的OBS路径。 “数据标注状态”：已标注。 “高级特征选项 ”：默认关闭，可通过勾选高级选项提供增强功能。如“按标签导入”：系统将自动获取此数据集的标签，您可以单击“添加标签”添加相应的标签。此字段为可选字段，您也可以在导入数据集后，在标注数据操作时，添加或删除标签。图1 导入数据集-OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集

总条数： 1485

上一页
1
...
67
68
69
...
75
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Finetune训练 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

如何在CodeLab上安装依赖？ - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

从OBS目录导入数据到数据集 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线