搜索_华为云

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

cator.cpp:278” 2.“libcudart.so.9.0 cannot open shared object file no such file or directory” 3.“Make sure the device specification refers to

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查询训练作业列表 - AI开发平台ModelArts

task_statuses Array of TaskStatuses objects 训练在子任务状态信息。 running_records Array of RunningRecord objects 训练作业运行及故障恢复记录。表8 TaskStatuses 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
标注文本分类数据 - AI开发平台ModelArts

标注文本分类数据项目创建完成后，将会自动跳转至新版自动学习页面，并开始运行，当数据标注节点的状态变为“等待操作”时，需要手动进行确认数据集中的数据标注情况，也可以对数据集中的数据进行标签的修改，数据的增加或删减。图1 数据标注节点状态双击“数据标注”节点，单击实例详情按钮，打开数据标注页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

客户端配置（用户可根据需要自行配置，不配置默认是不给服务端发心跳包），如图1，图2所示。图1 打开VS Code ssh config配置文件图2 增加配置信息配置信息示例如下： Host ModelArts-xx …… ServerAliveInterval

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
查询训练作业日志 - AI开发平台ModelArts

否 Integer 获取日志的长度，默认为50行。lines的范围为[0, 500]。 log_file 是 String 需要查看的日志文件名称，获取方式请参见获取训练作业日志的文件名。 order 否 String 日志查询的方向。 desc：向下查询。 asc：向上查询。请求消息

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。 run_lora_sdxl中的vae路径要准确写到sdxl_vae

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
创建训练作业 - AI开发平台ModelArts

参数是否必选参数类型描述 nfs 否 Nfs object 训练作业nfs挂载卷信息。 pfs 否 Pfs object 训练作业obsfs挂载卷信息。 obs 否 Obs object 训练作业obs挂载卷信息。表46 Nfs 参数是否必选参数类型描述 nfs_server_path

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
停止Notebook实例 - AI开发平台ModelArts

Integer 存储容量，EVS默认5G，EFS默认50G，最大限制4096G。 category String 支持的存储类型。不同存储类型的差异，详见开发环境中如何选择存储。枚举值如下： SFS：弹性文件服务 EVS：云硬盘 mount_path String 存储挂载至Note

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
如何在Notebook中安装外部库？ - AI开发平台ModelArts

打开一个Notebook实例，进入到Launcher界面。在“Notebook”区域下，选择“TensorFlow-1.8”，新建一个ipynb文件。在新建的Notobook中，在代码输入栏输入如下命令。 !pip install Shapely 在Terminal中安装例如，通过

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

7.13）。下载openmpi 3.0.0安装文件。使用地址https://github.com/horovod/horovod/files/1596799/openmpi-3.0.0-bin.tar.gz，下载 horovod v0.22.1已经编译好的openmpi 3.0

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

7.13）。下载openmpi 3.0.0安装文件。使用地址https://github.com/horovod/horovod/files/1596799/openmpi-3.0.0-bin.tar.gz，下载horovod v0.22.1已经编译好的openmpi 3.0

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
训练作业容错检查 - AI开发平台ModelArts

cache 无大于32GB ulimit检查 ulimit 使用IB网络时 max locked memory > 16000 open files > 1000000 stack size > 8000 max user processes > 1000000 gpu检查 gpu-check

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

--shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。修改目录权限，上传代码和数据到宿主机时使用的是root用户，如用ma-user用户训练，此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
查看Notebook实例事件 - AI开发平台ModelArts

/cache目录文件大小超过最大限制紧急 NotebookHealthy 实例从不健康恢复到了健康状态重要 EVSSoldOut EVS存储售罄紧急表6 OBS动态挂载产生的事件列表事件名称事件描述事件级别 DynamicMountStorage 挂载OBS存储重要 D

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
执行SFT全参微调训练任务 - AI开发平台ModelArts

执行SFT全参微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
安装Gallery CLI配置工具 - AI开发平台ModelArts

─────────────╮ │ download Download files from the AI Gallery | │ login

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南

总条数： 1219

上一页
1
...
41
42
43
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

标注文本分类数据 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

查询训练作业日志 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

停止Notebook实例 - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线