搜索_华为云

准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

被中断。在正常情况下，nvidia-smi进程通常只会短暂地出现D+状态，因为它们是由内核控制的，该进程处于等待I/O操作完成的状态，可能是在读取或写入GPU相关的数据，这是正常的操作。但是，如果该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询资源实时利用率 - AI开发平台ModelArts

String 内存。 tnt004 String GPU卡的数量。表8 ResourceMetricsMetadata 参数参数类型描述 name String 资源指标的名称。 labels Object 资源指标的标签信息。请求示例 GET https://{endpoin

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
管理Lite Cluster资源池 - AI开发平台ModelArts

配置，配置镜像预热信息。单击监控的图标，可以开启或关闭监控信息，并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。单击集群配置的图标，可以设置绑核、Dropcache、大页内存参数。缺省值表示读取资源池镜像中的默认值。绑核：开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
NPU日志收集上传 - AI开发平台ModelArts

略，以便用户收集的日志可以上传至对应的OBS桶。华为云技术支持配置完成后，会给您提供对应的OBS桶目录“obs_dir”，该目录用于后续配置的脚本中。图2 租户名ID和IAM用户名ID 准备日志收集上传脚本。修改以下脚本中NpuLogCollection的参数，将ak、sk

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

S/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图2 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
（可选）工作空间配置 - AI开发平台ModelArts

ModelArts支持设置子用户的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。如果您开通了企业项目管理服务的权限，可以在创建工作空间的时候绑定企业项目ID，并在企业项目下添加用户组，为不同的用户组设置细粒度权限供组里的用户使用。如

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

查看修改的内容如果修改代码库中的某个文件，在“Changes”页签的“Changed”下可以看到修改的文件，并单击修改文件名称右侧的“Diff this file”，可以看到修改的内容。图7 查看修改的内容提交修改的内容确认修改无误后，单击修改文件名称右侧的“Stage

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
训练输出路径被其他作业使用 - AI开发平台ModelArts

/bucket-20181114/code_hxm/ 原因分析根据报错信息判断，在创建训练作业时，同一个“训练输出路径”在被其他作业使用。处理方法一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。当出现此报错时，建议检查并重新填写训练作业的“训练输出路径”，以避免创建作业失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查询数据集详情 - AI开发平台ModelArts

数据集版本名称。 with_column_header Boolean 发布的CSV文件的第一行是否为列名，对于表格数据集有效。可选值如下： true：发布的CSV文件的第一行是列名 false：发布的CSV文件的第一行不是列名表10 LabelStats 参数参数类型描述 attributes

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
非分离部署推理服务 - AI开发平台ModelArts

将权重文件上传到Server机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见表3。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
开发环境计费项 - AI开发平台ModelArts

、弹性文件服务SFS中的计费。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源公共资源池使用计算资源的用量。具体费用可参见ModelArts价格详情。按需计费规格单价 * 计算节点个数 * 使用时长专属资源池专属资源池的费用已在购买时支付，运行Notebook实例时不再收费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
分离部署推理服务 - AI开发平台ModelArts

(group_id="0")代表Scheduler实例的ip信息，只能有一个实例。第二个元素(group_id="1")代表全量实例信息，长度即为全量实例个数。其中需要配置每个全量实例的ip信息以及使用的device信息。rank_id为逻辑卡号，必然从0开始计算，device

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

(group_id="0")代表Scheduler实例的ip信息，只能有一个实例。第二个元素(group_id="1")代表全量实例信息，长度即为全量实例个数。其中需要配置每个全量实例的ip信息以及使用的device信息。rank_id为逻辑卡号，必然从0开始计算，device

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
云上迁移适配故障 - AI开发平台ModelArts

云上迁移适配故障无法导入模块训练作业日志中提示“No module named .*” 如何安装第三方包，安装报错的处理方法下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
AI Gallery（旧版） - AI开发平台ModelArts

AI Gallery（旧版） AI Gallery简介免费资产和商用资产入驻AI Gallery 我的Gallery介绍订阅使用发布分享参加活动合作伙伴需求广场

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery）
查询指定节点池详情 - AI开发平台ModelArts

NodePoolMetadata object 节点池的metadata信息。 spec NodePoolSpec object 节点池的期望信息。 status NodePoolStatus object 节点池的状态信息。表4 NodePoolMetadata 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理

总条数： 2651

上一页
1
...
59
60
61
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

查询资源实时利用率 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

（可选）工作空间配置 - AI开发平台ModelArts

在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

训练输出路径被其他作业使用 - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

AI Gallery（旧版） - AI开发平台ModelArts

查询指定节点池详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线