搜索_华为云

模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

model_name="tensorflow_mlp_mnist_local_infer") 本地模型创建好后，可部署为本地服务。本地模型创建完，可以调用接口发布模型。 1 model.publish_model(obs_location=obs_location) 指定参数“obs_

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

[root@Server-ddff ~]# 发现和当前内核一致，因此即使reboot也不会更改服务器的内核版本。若希望升级指定的操作系统内核，也可以执行grub2-set-default进行设置默认启动内核版本。但操作系统内核升级可能带来的问题。例如在操作系统内核4.18.0-147.5

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理时，要执行的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
日志提示“No space left on device” - AI开发平台ModelArts

（ blocksize，系统默认 4096B。总共有三种大小：1024B、2048B、4096B）创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
自定义模型规范 - AI开发平台ModelArts

ret = dataset.with_transform(_format_transforms) return ret # 转换函数 def _format_transforms(examples): examples["pixel_values"] = [_transforms(img

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
如果不再使用ModelArts，如何停止收费？ - AI开发平台ModelArts

请检查在ModelArts所创建运行中的作业，并停止或删除相关作业，即可停止计费。操作步骤：在ModelArts管理控制台，单击左侧菜单栏的“总览”，您可以在“总览”区域查看正在收费的作业。再根据实际情况进入管理页面，停止收费。图1 查看收费作业进入“ModelArts>Workflow”

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段拷贝，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

ModelArts SDK不支持在训练作业和在线服务中使用。 ModelArts SDK已经集成在ModelArts开发环境Notebook中，可以直接使用，无需进行Session鉴权。登录ModelArts控制台，在“开发空间 > Notebook”中创建Notebook实例，在T

帮助中心 > AI开发平台ModelArts > SDK参考
创建并完成图像分类的智能标注任务 - AI开发平台ModelArts

"image_colorfulness": false } } 根据响应可以了解智能标注任务详情，其中“progress”为“30”表示当前任务进度为30%，“status”为“1”表示任务状态为在运行中。待智能标注任务完成后，调用查询智能标注的样本列表接口可以查看标注结果。请求消息体： URI格式：GET

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
附录：指令微调训练常见问题 - AI开发平台ModelArts

问题2：访问容器目录时提示Permission denied 由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod 777 -R ${dir} 问题3：训练过程报错：ImportError: This

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
VS Code ToolKit连接Notebook - AI开发平台ModelArts

Code开发环境中，右键单击实例名称，单击“Connect to Instance”，启动并连接Notebook实例。 Notebook实例状态处于“运行中”或“停止”状态都可以，如果Notebook实例是停止状态，连接Notebook时，VS Code插件会先启动实例再去连接。图8 连接Notebook实例或者单击实例名称，在VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

”改为“Unattended-Upgrade "0";”以禁用自动更新，然后保存文件并退出。将当前内核版本锁定。要禁止特定的内核版本更新，你可以使用“apt-mark”命令将其锁定。首先，检查你当前的内核版本： uname -r 例如，如果你的内核版本是“5.4.0-42-gen

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练场景和方案介绍 - AI开发平台ModelArts

907版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.907）

总条数： 1438

上一页
1
...
67
68
69
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型调试 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

如果不再使用ModelArts，如何停止收费？ - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

创建并完成图像分类的智能标注任务 - AI开发平台ModelArts

InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线