搜索_华为云

ECS获取和上传基础镜像 - AI开发平台ModelArts

conf sysctl -p | grep net.ipv4.ip_forward Step4 获取训练镜像请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
镜像方案说明 - AI开发平台ModelArts

镜像、Notebook中构建新镜像的方式（三选一）来部署训练环境。方案的区别如下：直接使用基础镜像方案：用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

saved_dir_for_output_lf # 训练输出保存权重，目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称,根据实际训练模型创建，训练完成权重文件及日志目录上传代码和权重文件到工作环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

saved_dir_for_output_lf # 训练输出保存权重，目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称,根据实际训练模型创建，训练完成权重文件及日志目录上传代码和权重文件到工作环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

saved_dir_for_output_lf # 训练输出保存权重，目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称,根据实际训练模型创建，训练完成权重文件及日志目录上传代码和权重文件到工作环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

so.0") 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地I

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
昇腾迁移快速入门案例 - AI开发平台ModelArts

昇腾迁移快速入门案例 ModelArts提供了两个昇腾迁移案例，方便您快速了解并完成昇腾迁移过程。约束限制当前仅贵阳一区域支持选择本案例中的规格及镜像。操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“开发空间 > Notebook”，进入“Notebook”管理页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

推理成功步骤七：Flux+Diffusers 0.30.2适配本章节介绍Flux模型使用Diffusers 0.30.2框架的推理过程。使用官方提供的已经训练好的模型进行推理，输入prompt生成指定像素的图片。使用如下命令登录huggingface，并输入个人账号的token，用于自动下载flux权重。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

用更为经济。本文档主要介绍如何在ModelArts Lite的Cluster环境中部署ComfyUI，使用NPU卡进行推理。方案概览本方案介绍了在ModelArts的Lite Cluster上使用昇腾计算资源部署ComfyUI用于推理的详细过程。完成本方案的部署，需要先联系

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

for p in processes: p.join() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地I

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

Xing代码。图1 代码示例处理方法 Fine Tune就是用别人训练好的模型，加上自己的数据，来训练新的模型。相当于使用别人的模型的前几层，来提取浅层特征，然后在最后再落入自己的分类中。由于一般新训练模型准确率都会从很低的值开始慢慢上升，但是Fine Tune能够在比较少

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有的

 帮助中心 > AI开发平台ModelArts > 常见问题 > 存储相关
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

不用手动指定默认的。如果发现资源节点中存在GPU卡损坏，请联系技术支持处理。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地I

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
创建Workflow训练作业节点 - AI开发平台ModelArts

_dataset") # 通过JobStep来定义一个训练节点，输入使用数据集，并将训练结果输出到OBS job_step = wf.steps.JobStep( name="training_job", # 训练节点的名称，命名规范(只能包含英文字母、数字、下划线（_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
非分离部署推理服务 - AI开发平台ModelArts

将权重文件上传到Server机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见表3。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下。 df -h 步骤四制作推理镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
AI开发基本概念 - AI开发平台ModelArts

AI开发基本概念机器学习常见的分类有3种：监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。常见的有回归和分类。非监督学习：在未加标签的数据中，试图找到隐藏的结构。常见的有聚类。强化学习：智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

otebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

总条数： 2062

上一页
1
...
53
54
55
...
104
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ECS获取和上传基础镜像 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

昇腾迁移快速入门案例 - AI开发平台ModelArts

FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

AI开发基本概念 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线