搜索_华为云

VS Code使用技巧 - AI开发平台ModelArts

VS Code使用技巧安装远端插件时不稳定，需尝试多次 Notebook实例重新启动后，需要删除本地known_hosts才能连接使用VS Code调试代码时不能进入源码使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误实例重新启动后，Notebook内安装的插件丢失

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
AI开发基本流程介绍 - AI开发平台ModelArts

一些常用的指标，如准确率、召回率、AUC等，能帮助您有效的评估，最终获得一个满意的模型。部署模型模型的开发训练，是基于之前的已有数据（有可能是测试数据），而在得到一个满意的模型之后，需要将其应用到正式的实际数据或新产生数据中，进行预测、评价、或以可视化和报表的形式把数据中的高价值信息

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

Turbo的“云上挂载路径”为“/home/ma-user/work”，使得训练环境下SFS也在“/home/ma-user/work”路径下。 ln -s建立软连接如果代码中涉及文件绝对路径，由于Notebook调试与训练作业环境不同，可能会导致文件绝对路径不一致，需要修改代码内容。推荐使用软链接的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_inference # 推理代码包 |──llm_tools # 推理工具下载代码之后需要修改llm_train/AscendSpeed/scripts/install.sh文件。具体为删除install.sh的第43行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
查看训练作业资源占用情况 - AI开发平台ModelArts

情况。建议优化数据读取和数据增强的性能，例如将数据读取并行化，或者使用NVIDIA Data Loading Library（DALI）等工具提高数据增强的速度。模型保存不要太频繁：模型保存操作一般会阻塞训练，如果模型较大，并且较频繁地进行保存，就会影响GPU/NPU利用率。同

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
附录：微调训练常见问题 - AI开发平台ModelArts

ue 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Dee

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
日志提示“ Network is unreachable” - AI开发平台ModelArts

load(checkpoint) model1.load_state_dict(state_dict) 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
Wav2Lip基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

sh命令后，会自动生成face_detection/detection/sfd目录。 Step6 服务调用提前准备人物图片，支持'jpg', 'png', 'jpeg'格式。推荐测试图片大小1280*720或1920*1080。提前准备音频文件audio，支持'wav', 'mp3'

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
Notebook专属预置镜像列表 - AI开发平台ModelArts

换，分享案例到AI Gallery进行交流，停止实例（实例停止后CPU、Memory不再计费）等，提升用户体验。支持SSH远程连接功能：通过SSH连接启动实例，在本地调试就可以操作实例，方便调试。预置镜像支持功能开发：基于ModelArts预置镜像进行依赖安装配置后，保存为自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

permute(0, 3, 1, 2).contigous()) 将版本回退至pytorch1.3。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_inference # 推理代码包 |──llm_tools # 推理工具代码上传至OBS 将AscendSpeed代码包AscendCloud-LLM-xxx.zip在本地解压缩后，将llm_train文件上传至OBS中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

enabled” 原因分析出现该问题的可能原因如下：新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

_wirte_check_passed = True df = pd.read_csv(ff, **param) 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用Notebook进行代码调试 - AI开发平台ModelArts

规格：选择1 GPU规格。存储配置：选择“云硬盘EVS”作为存储位置。如果需要通过VS Code连接Notebook方式进行代码调试，则需开启“SSH远程开发”并选择密钥对，请参考VS Code连接Notebook方式介绍。参数填写完成后，单击“立即创建”进行规格确认。参数确认无误后

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
专属资源池VPC打通 - AI开发平台ModelArts

VPC后，专属资源池中作业访问公网地址，默认不能转发到用户VPC的SNAT，需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的缺省路由。当您开启默认路由后，在打通VPC时，会将ModelArts网络0.0.0.0/0路由作为默认路由，此时无需提交工单添加缺省路由即可完成网络配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

能否提供实际模型、网络验证的代码和数据等信息提供实际模型、网络验证的代码和数据。提供与业务类型类似的开源模型，例如GPT3 10B/13B。提供测试模型以及对应的Demo代码路径（开源或共享）。可以提前的完成POC评估，例如框架、算子支持度，以及可能的一些性能指标。 - 如果是AIGC场景的业务例如Stable

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_inference # 推理代码包 |──llm_tools # 推理工具代码上传至OBS 将AscendSpeed代码包AscendCloud-LLM-xxx.zip在本地解压缩后，将llm_train文件上传至OBS中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
训练作业失败，返回错误码139 - AI开发平台ModelArts

通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。图1 PIP安装对比图推荐您使用本地Pycharm远程连接Notebook调试。如果上述情况都解决不了，请联系技术支持工程师。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
OOM导致训练作业失败 - AI开发平台ModelArts

释放一些不需要的tensor，使用过的，如下： del tmp_tensor torch.cuda.empty_cache() 必现的问题，使用本地Pycharm远程连接Notebook调试超参。如果还存在问题，可能需要提工单进行定位，甚至需要隔离节点修复。建议与总结在创建训练作业前，推荐您先使用Mo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示"write line error" - AI开发平台ModelArts

system("ulimit -c 0") 排查数据集大小，checkpoint保存文件大小，是否占满了磁盘空间。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

总条数： 977

上一页
1
...
29
30
31
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

VS Code使用技巧 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

Wav2Lip基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线