搜索_华为云

断点续训和故障快恢说明 - AI开发平台ModelArts

gatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

org/get-started/previous-versions/ 如果环境中装了多版本的cuda，可以排查LD_LIBRARY_PATH中的cuda优先级，需要手动调整下。举例：如果cuda只兼容cuda-9.1，查询到LD_LIBRARY_PATH=/usr/local/cuda-11

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
查询训练日志 - AI开发平台ModelArts

会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明参数是否必选参数类型描述 task_id 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
Lite Cluster使用流程 - AI开发平台ModelArts

后，CCE会对这些节点进行纳管，并且ModelArts会在CCE集群中安装npuDriver、os-node-agent等插件。完成Cluster资源池的购买后，您即可对资源进行配置，并将数据上传至存储云服务中。当您需要使用集群资源时，可以使用kubectl工具或k8s API来

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
AI Gallery功能介绍 - AI开发平台ModelArts

大幅度降低了模型开发门槛。充足澎湃算力，最佳实践算力推荐方案，提升实践效率和成本 AI Gallery深谙开发者在人工智能项目推进过程中面临的实际困难，尤其是高昂的模型训练与部署成本，这往往成为创意落地的阻碍。通过大量开发者实践，针对主流昇腾云开源大模型，沉淀最佳的算力组合方

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
Lite Cluster资源管理介绍 - AI开发平台ModelArts

管理Lite Cluster节点池：为帮助您更好地管理Kubernetes集群内的节点，ModelArts支持通过节点池来管理节点。节点池是集群中具有相同配置的一组节点，一个节点池包含一个节点或多个节点，您可以创建、更新和删除节点池。管理Lite Cluster节点：节点是容器集群组

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
训练网络迁移总结 - AI开发平台ModelArts

整个迁移过程并非是完全平替，GPU在灵活性上有其独特的优势，而NPU上的执行目前还是依赖于算子的下发，对于NPU构造的理解是昇腾训练迁移中必备的知识，只有对于昇腾有基础理解，配合一些诊断工具，面对复杂问题时，才能进行进一步诊断与定位，进而发挥NPU的能力。性能调优可以先将重点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
查询数据集列表 - AI开发平台ModelArts

list_datasets(session, dataset_type=0) print(dataset_list) 示例三：根据数据集名称查询数据集列表 # 查询名称中包含dataset的数据集列表 dataset_list = Dataset.list_datasets(session, dataset_name="dataset")

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

Spark应用每个Executor的CPU核数。该配置项会替换sc_type中对应的默认参数。 -em / --executor-memory String 否 Spark应用的Executor内存，参数配置例如2G，2048M。该配置项会替换“sc_type”中对应的默认参数，使用时必须带单位，否则会启动失败。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

查看密钥文件的路径，建议放在C:\Users\{user}\.ssh下，并确保密钥文件无中文字符。排查插件包是否为最新版：在extensions中搜索，看是否需要升级。检查Remote-ssh三方插件是否兼容。 4. 检查本地Vscode是否为最新版，最新版可能有bug，建议使用推荐版本v1

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
性能调优总体原则和思路 - AI开发平台ModelArts

个或几个亲和算子组合的形式，代替原有GPU的实现方式，具体逻辑模型请参考PyTorch自动迁移。在PyTorch模型迁移后进行训练的过程中，CPU只负责算子的下发，而NPU负责算子的执行，算子下发和执行异步发生，性能瓶颈在此过程中体现。在PyTorch的动态图机制下，算子被CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
MoXing进阶用法的样例代码 - AI开发平台ModelArts

binary=True), np.uint8), cv2.IMREAD_COLOR) 将一个不支持OBS路径的API改造成支持OBS路径的API pandas中对h5的文件读写to_hdf和read_hdf既不支持OBS路径，也不支持输入一个文件对象，考虑以下代码会出现错误。 1 2 3 4 import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
查询训练作业的运行指标 - AI开发平台ModelArts

会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明参数是否必选参数类型描述 task_id 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

您可以根据需要选择一种方式进行续费，具体如图1所示。图1 专属资源池生命周期专属资源池从购买到期前，处于正常运行阶段，资源状态为“运行中”。到期后，资源状态变为“已过期”。到期未续费时，专属资源池首先会进入宽限期，宽限期到期后仍未续费，资源状态变为“已冻结”。超过宽限期

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作

总条数： 2007

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

断点续训和故障快恢说明 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

AI Gallery功能介绍 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

性能调优总体原则和思路 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线