搜索_华为云

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

用更加了解。确定自定义镜像大小自定义镜像的大小推荐15GB以内，最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G，专属资源池的容器引擎空间的默认为50G，支持在创建专属资源池时自定义容器引擎空间。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
发布Workflow到ModelArts - AI开发平台ModelArts

Workflow中所有出现占位符相关的配置对象时，均需要设置默认值，或者直接使用固定的数据对象方法的执行依赖于Workflow对象的名称：当该名称的工作流不存在时，则创建新工作流并创建新执行；当该名称的工作流已存在时，则更新存在的工作流并基于新的工作流结构创建新的执行 workflow.release_and_run()

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
训练日志失败分析 - AI开发平台ModelArts

有错误，提供的失败可能原因仅供参考。针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。参考案例解决：会提供当前故障对应的指导文档链接，请参照文档中的解决方案修复问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

I http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。开通前需要确认使用的端口号，端口号可选取10120~10139范围内的任一端口号，请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置物理机环境操作。镜像地址本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
自定义引擎创建模型规范 - AI开发平台ModelArts

python app.py 除了按上述要求设置启动命令，您也可以在镜像中自定义启动命令，在创建模型时填写与您镜像中相同的启动命令。提供的服务可使用HTTPS/HTTP协议和监听的容器端口，使用的协议和端口号请根据模型实际定义的推理接口进行配置。HTTPS协议的示例可参考https示例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置物理机环境操作。镜像地址本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

视频编码器的训练。方案概览本方案介绍了在ModelArts的DevServer上使用昇腾NPU计算资源开展Open-clip训练的详细过程。完成本方案的部署，需要先联系您所在企业的华为方技术支持购买DevServer资源。本方案目前仅适用于企业客户。资源规格要求推荐使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

服务的性能。当从第三方推理框架迁移到使用ModelArts推理的模型管理和服务管理时，需要对原生第三方推理框架镜像的构建方式做一定的改造，以使用ModelArts推理平台的模型版本管理能力和动态加载模型的部署能力。本案例将指导用户完成原生第三方推理框架镜像到ModelArts推

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
如何将标注结果下载至本地？ - AI开发平台ModelArts

ModelArts数据集中的标注信息和数据在发布后，将以manifest格式存储在“数据集输出位置”对应的OBS路径下。路径获取方式：在ModelArts管理控制台，进入“数据管理>数据集”。选择需查看数据集，单击名称左侧小三角，展开数据集详情。可获得“数据集输出位置”指定的OBS路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
查看训练作业资源占用情况 - AI开发平台ModelArts

如何判断训练作业资源利用率高低在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的GPU/NPU的平均利用率低于50%时，在训练作业列表中会进行告警提示。图2 作业列表显示作业资源利用率情况此处的作业资源利用率只涉及GPU和NPU资源。作业worker-0实例的GPU/NP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

流水账单”中，“消费时间”即按需产品的实际使用时间。查看自动学习和Workflow的账单自动学习和Workflow运行时，在进行训练作业和部署服务时，会产生不同的账单。训练作业产生的账单可参考查看训练作业的账单查询。部署服务产生的账单可参考查看在线服务的账单查询。查看Notebook的账单登录

 帮助中心 > AI开发平台ModelArts > 计费说明
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Fine-tuning)：是一种利用有标签数据进行模型训练的方法。它基于一个预先训练好的模型，通过调整模型的参数，使其能够更好地拟合特定任务的数据分布。与从头开始训练模型相比，监督式微调能够充分利用预训练模型的知识和特征表示，从而加速训练过程并提高模型的性能。训练阶段下有不同的训练策略，分为全参数训练、部

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
创建Workflow数据集标注节点 - AI开发平台ModelArts

gInput的列表 outputs 数据集标注节点的输出列表是 LabelingOutput或者LabelingOutput的列表 properties 数据集标注相关的配置信息是 LabelTaskProperties title title信息，主要用于前端的名称展示否

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表2所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

com（此处需要替换成对应局点的pip源地址） pip install py-spy 查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业，一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.3.911版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911）
切换Lite Server服务器操作系统 - AI开发平台ModelArts

Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统使用Python封装API的方式切换操作系统切换操作系统需满足以下条件：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
Lite Server使用流程 - AI开发平台ModelArts

网络计算而设计的硬件。与GPU相比，NPU在神经网络计算方面具有更高的效率和更低的功耗。密钥对弹性裸金属支持SSH密钥对的方式进行登录，用户无需输入密码就可以登录到弹性裸金属服务器，因此可以防止由于密码被拦截、破解造成的账户密码泄露，从而提高弹性裸金属服务器的安全性。说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读

总条数： 685

上一页
1
...
18
19
20
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

如何将标注结果下载至本地？ - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

创建Workflow数据集标注节点 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线