搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

ue 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Dee

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看诊断报告 - AI开发平台ModelArts

Issues 下图展示了低优先级的动态shape问题，在NPU上动态shape可能导致频繁的算子编译从而影响训练性能，可以按照html中的提示在训练脚本开头加上如下红框中的两行代码（分布式训练请确保分布式训练的每个进程都可以使能这两行代码）。图13 动态shape分析 schedule 下发维度通常包含如下几类问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，如果未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

ser用户执行后续命令。 docker exec -it ${container_name} bash 步骤八：进入容器执行数据集格式调整脚本 cd ${container_work_dir}/datasets/ python data.py 执行成功后，当前目录下会生成满足格式

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，如果未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
使用PyCharm手动连接Notebook - AI开发平台ModelArts

例如TensorFlow、PyTorch等，但是实际开发中，通常还需要安装其他依赖包，此时可以通过Terminal连接到环境里操作。单击工具栏“Tools >Start SSH session”，选择SSH Configuration中配置的开发环境。可以执行pip install安装所需要的包。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

由于ModelArts创建训练作业时，需要将作业日志输出至OBS桶中，因此创建OBS桶为必选项。用户可通过OBS Browser+、obsutil等工具访问和管理OBS桶，将代码、模型文件、数据集等数据上传或下载进行备份。创建VPC 虚拟私有云（Virtual Private Cloud

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
创建生产训练作业 - AI开发平台ModelArts

运行训练作业时，当“代码目录”下载完成后，“启动命令”会被自动执行。如果训练启动脚本用的是py文件，例如“train.py”，则启动命令如下所示。 python ${MA_JOB_DIR}/demo-code/train.py 如果训练启动脚本用的是sh文件，例如“main.sh”，则启动命令如下所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

c-95c45e5d3e83 “-d”是Body体的文本内容。方式三：使用Python语言发送预测请求下载Python SDK并在开发工具中完成SDK配置。具体操作请参见在Python环境中集成API请求签名的SDK。创建请求体，进行预测请求。输入为文件格式 # coding=utf-8

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

--train-instance-type String 否训练作业选择的资源规格。 --output String 否训练的输出信息，指定后，训练作业将会把训练脚本中指定输出参数对应训练容器的输出目录上传到指定的OBS路径。如果需要指定多个参数，可以使用--output output1=obs://bucket/output1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
准备物体检测数据 - AI开发平台ModelArts

Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。在上传数据时，请选择非加密桶进行上传，否则会由于加密桶无法解密导致后期的训练失败。用于训练的图片，至少有1种以上的分类，每种分类的图片数不少50张。创建数据集数据准备完成后，需要创建相应项目支持

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。 unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件，自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

ggingface token进行登录： huggingface-cli login 登录成功后，直接启动步骤三中的Diffusers推理脚本即可实现自动下载。对于ComfyUI框架，只需要下载safetensors文件即可，即 https://huggingface.co/s

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
准备预测分析数据 - AI开发平台ModelArts

Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。在上传数据时，请选择非加密桶进行上传，否则会由于加密桶无法解密导致后期的训练失败。创建数据集数据准备完成后，需要创建相应项目支持的类型的数据集，具体操作请参考创建ModelArts数据集。常见问题

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
查询开发环境实例详情 - AI开发平台ModelArts

log_path String 自定义镜像日志存储路径。 custom_script_path String Notebook启动时的自定义初始化脚本路径。 extend_storage Array<Storage> 扩展存储列表，如表4所示。扩展存储当前仅支持type为“obsfs”的类型，且仅对部分专属资源池开放。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
切换Lite Server服务器操作系统 - AI开发平台ModelArts

func main() { // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全； // 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

py 文件中rope()方法，把scale计算中的dtype改成torch.float32。图14 修改diffusers源码运行推理脚本。 sed -i 's/self.verify = True/self.verify = False/g' /home/ma-user/a

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
更新开发环境实例信息 - AI开发平台ModelArts

log_path String 自定义镜像日志存储路径。 custom_script_path String Notebook启动时的自定义初始化脚本路径。 extend_storage Array<Storage> 扩展存储列表，如表4所示。扩展存储当前仅支持type为“obsfs”的类型，且仅对部分专属资源池开放。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
配置节点参数控制分支执行 - AI开发平台ModelArts

join("directory_path/metrics.json", create_dir=False))) # 指定metric的输出路径，相关指标信息由作业脚本代码根据指定的数据格式自行输出（示例中需要将metric信息输出到训练输出目录下的metrics.json文件中） ], spec=wf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

myhuaweicloud.com/deep-learning/pytorch:2.1.0-cann7.0.0 代码目录：设置为OBS中存放启动脚本文件的目录，例如：“obs://test-modelarts/pytorch/demo-code/”，训练代码会被自动下载至训练容器的“$

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型

总条数： 893

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用PyCharm手动连接Notebook - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

准备物体检测数据 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

准备预测分析数据 - AI开发平台ModelArts

查询开发环境实例详情 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线