搜索_华为云

录制Profiling - AI开发平台ModelArts

析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等，可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：步骤三

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等，可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：步骤三

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等，可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：步骤三：启动训练脚本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
自定义镜像规范 - AI开发平台ModelArts

per_device_train_batch_size=32, gradient_accumulation_steps=1, per_device_eval_batch_size=int(user_args['per_device_eval_batch_size'])

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

--modelFile=model.mindir --inputShapes=1,3,224,224 --inDataFile=input_data.bin --device=Ascend --benchmarkDataFile=output_data.txt --accuracyThreshold=5 -

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

mem = nvidia_smi.nvmlDeviceGetMemoryInfo(handle) print(f"|Device {i}| Mem Free: {mem.free/1024**2:5.2f}MB / {mem.total/1024**2:5.2f}MB

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

yaml --epoch_size=1 --device_target="CPU" 图7 配置PyCharm解释器根据README说明文档，配置Parameter参数device_target="CPU"表示CPU环境运行，device_target="Ascend"表示在Ascend环境运行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
准备BF16权重 - AI开发平台ModelArts

file_name) loaded_files[file_name] = load_file(file_path, device="cpu") return loaded_files[file_name][tensor_name] safetensor_files

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误联网下载SimSun.ttf时可能会遇到网络问题在运行finetune_ds.sh 时遇到报错父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

除历史的checkpoint文件，会导致/cache目录逐步被用完。实际存储空间足够，却依旧报错“No Space left on device”。可能是inode不足，或者是触发操作系统的文件索引缓存问题，导致操作系统无法创建文件，造成用户磁盘占满。触发条件和下面的因素有关：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误联网下载SimSun.ttf时可能会遇到网络问题在运行finetune_ds.sh 时遇到报错父主题： Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

统计推理时间。执行的示例命令行如下。 # shell benchmark --modelFile=resnet50.mindir --device=Ascend 为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark性能测试，具体使用方式参考Tailor指导文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

sh放到/opt目录，在实际启动任务的时候，使用以下命令启动任务即可： bash –x /opt/run.sh 把run.sh放到/root目录，可以在原镜像里增加一层，这一层就只是COPY这个run脚本。在基础镜像里可以一起把obsutil安装、配置好。参考如下dockerfile： FROM $your_docker_image_tag

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

sh放到/opt目录，在实际启动任务的时候，使用以下命令启动任务即可： bash –x /opt/run.sh 把run.sh放到/root目录，可以在原镜像里增加一层，这一层就只是COPY这个run脚本。在基础镜像里可以一起把obsutil安装、配置好。参考如下dockerfile： FROM $your_docker_image_tag

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Configurations”，填入如下代码。 # 根据README说明文档，配置的Parameter入参如下，其中device_target="CPU"表示CPU环境运行，device_target="Ascend"表示在Ascend环境运行 "configurations": [

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

建议通过开源的官方镜像来构建，例如PyTorch的官方镜像。建议容器分层构建，单层容量不要超过1G、文件数不大于10w个。分层时，先构建不常变化的层，例如：先OS，再cuda驱动，再Python，再pytorch，再其他依赖包。如果训练数据和代码经常变动，则不建议把数据、代码放到容器镜像里，避免频繁地构建容器镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

U卡信息。 nvidia-smi -pm 1 #该命令执行时间较长，请耐心等待，作用为启用持久模式，可以优化Linux实例上GPU设备的性能 nvidia-smi 安装CUDA。 wget https://developer.download.nvidia.com/compute/cuda/11

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
集成在线服务API至生产环境中应用 - AI开发平台ModelArts

集成在线服务API至生产环境中应用针对已完成调测的API，可以将在线服务API集成至生产环境中应用。前提条件确保在线服务一直处于“运行中”状态，否则会导致生产环境应用不可用。集成方式 ModelArts在线服务提供的API是一个标准的Restful API，可使用HTTP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

能否挖掘出强表达能力的特征，还在于对数据本身以及具体应用场景的深刻理解，这依赖于经验。调整参数和超参数。神经网络中：学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1和β2参数、batch_size数值等。其他算法中：随机森林的树数量，k-means中的cluster数，正则化参数λ等。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

总条数： 328

上一页
1
...
12
13
14
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

集成在线服务API至生产环境中应用 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线