搜索_华为云

设置断点续训练 - AI开发平台ModelArts

keep_checkpoint_max=35) # append_info=[{"epoch_num": cur_epoch_num}],mindspore1.3及以后版本会支持append_info参数，保存当前时刻的epoch值 ckpoint_cb

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

user_conda/sfs-new-env 添加新创建的虚拟环境到conda env。 # shell conda config --append envs_dirs /home/ma-user/work/envs/user_conda/ 查看现有的conda虚拟环境，此时新的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
SFT全参微调任务 - AI开发平台ModelArts

/converted_weights \ sh scripts/llama2/llama2.sh 训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。父主题： SFT全参微调训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？不可以下载。但是您可以在AI应用管理页面查看，或者将此模型部署为在线服务。父主题：模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
服务预测失败 - AI开发平台ModelArts

请根据构建日志报错信息，定位服务预测失败原因，修改模型推理代码后，重新导入模型进行预测。经典案例：在线服务预测报错MR.0105 出现其他情况，优先检查客户端和外部网络是否有问题。以上方法均未解决问题，请联系系统管理员。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

本例的Dockerfile将基于MindSpore基础镜像mindspore1.7.0-cann5.1.0-py3.7-euler2.8.3，升级到cann 5.1.RC2和MindSpore1.8.1，构建一个面向AI任务的镜像。加载镜像模板后，Dockerfile文件自动加载，在“.ma/upgrade_ascend_mindspore_1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
预训练任务 - AI开发平台ModelArts

raining”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。如果需要使用断点续训练能力，请参考断点续训练章节修改训练脚本。父主题：预训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中，可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
自动学习模型训练图片异常？ - AI开发平台ModelArts

完成的数据在进行模型训练后，训练结果为图片异常。针对不同的异常情况说明及解决方案参见表1。表1 自动学习训练中图片异常情况说明（图像分类和物体检测）序号图片异常显示字段图片异常说明解决方案字段解决方案说明 1 load failed 图片无法被解码且不能修复 ignore

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
精度问题诊断 - AI开发平台ModelArts

以上述现象为例，通过修改use_ascend参数值对模型替换，可以发现：当text_encoder模型为onnx模型，其余模型为mindir模型时，能够得到和标杆数据相同的输出，因此可以判断出转换得到的text_encoder模型是产生pipeline精度误差的根因。通过下一小节可以进一步确认模型精度的差异。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中，可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
自动学习的每个项目对数据有哪些要求？ - AI开发平台ModelArts

适当增加训练数据，会提升模型的精度。声音分类建议每类音频至少20条，每类音频总时长至少5分钟。建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。训练集的数据质量对于模型的精度有很大影响，建议训练集音频的采样率和采样精度保持一致。标注质量对于最终的模型精度有极大的影响，标注过程中尽量不要出现误标情况。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 准备数据
准备Notebook - AI开发平台ModelArts

Notebook中安装依赖包并保存镜像在后续训练步骤中，训练作业启动命令中包含sh scripts/install.sh，该命令用于git clone完整的代码包和安装必要的依赖包，每次启动训练作业时会执行该命令安装。通过运行install.sh脚本，会git clone下载Megatron-LM、M

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

置。表1 参数说明参数说明 “授权对象类型” 包括IAM子用户、联邦用户、委托用户和所有用户。 IAM子用户：由主账号在IAM中创建的用户，是服务的使用人员，具有独立的身份凭证（密码和访问密钥），根据账号授予的权限使用资源。IAM子用户相关介绍请参见IAM用户介绍。联邦用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
训练作业失败，返回错误码139 - AI开发平台ModelArts

未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。图1 PIP安装对比图推荐您使用本地Pycharm远程连接Notebook调试。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问方式中，可支持在裸金属服务器中挂载的有弹性文件服务SFS和云硬盘EVS。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

专属资源池提供了动态设置作业类型的功能，您可以在创建资源池时、创建完成后，对资源池支持的作业类型进行编辑（新增或减少）。当前支持的“作业类型”有“训练作业”、“推理服务”和“开发环境”，用户可按需自行选择。设置某一作业类型后，即可在此专属资源池中下发此种类型的作业，没有设置的作业类型不能下发。为了支持不同的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
AI Gallery的入口在哪里 - AI开发平台ModelArts

AI Gallery的入口在哪里控制台入口登录ModelArts管理控制台。在左侧导航栏中选择“AI Gallery”跳转到AI Gallery首页。直接网址访问旧版AI Gallery将下线，已不再更新，建议使用新版AI Gallery。旧版AI Gallery地址：https://developer

帮助中心 > AI开发平台ModelArts > 常见问题 > AI Gallery
配置Lite Server网络 - AI开发平台ModelArts

单击“NAT网关”，进入公网NAT网关页面。单击“创建公网NAT网关”。选择Server所使用“虚拟私有云”和“子网”，计费模式根据实际需求选择。其余参数配置可使用默认值，单击“立即创建”。虚拟私有云和子网和Server资源的网络保持一致。图3 创建公网NAT网关配置SNAT规则。 SNAT功

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
SDXL Diffusers框架基于Devserver适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

evServer资源。本方案目前仅适用于企业客户。资源规格要求推理部署推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机单卡。获取软件获取插件代码包ascendcloud-aigc-6.3.902-*.tar.gz文件。获取路径：Support网站。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理

总条数： 1655

上一页
1
...
78
79
80
...
83
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置断点续训练 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

SFT全参微调任务 - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

自动学习模型训练图片异常？ - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

自动学习的每个项目对数据有哪些要求？ - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

AI Gallery的入口在哪里 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

SDXL Diffusers框架基于Devserver适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线