搜索_华为云

查询训练作业列表 - AI开发平台ModelArts

如下以查询训练作业状态为7，每页展示10条记录，指定到第1页，按照“job_name”排序并递增排列，查询作业名字中包含job的所有训练作业数据为例。 GET https://endpoint/v1/{project_id}/training-jobs?status=7&pe

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
附录：训练常见问题 - AI开发平台ModelArts

O-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

O-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使用：https://huggingface.co/datasets/mit-han-lab/pile-val-backup/resolve/main/val

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
获取动态挂载OBS实例详情 - AI开发平台ModelArts

orage_id} 表1 路径参数参数是否必选参数类型描述 instance_id 是 String Notebook实例ID，可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。 storage_id

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
启动停止边缘节点服务实例 - AI开发平台ModelArts

得到。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。表3 请求Body参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
删除APP - AI开发平台ModelArts
删除APP - AI开发平台ModelArts

/v1/{project_id}/app-auth/apps/{app_id} 表1 路径参数参数是否必选参数类型描述 app_id 是 String APP编号，可通过APP列表接口获取。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

系统自动创建委托名称，用户可以手动修改。 “新增委托 > 权限配置 > 普通用户” 普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限，如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。可以单击“查看权限列表”，查看普通用户权限。 “新增委托 > 权限配置 > 自定义”

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

error”。这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
删除工作空间 - AI开发平台ModelArts

准。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码： 200 表3 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明若用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：如果是“包年/包月”且资源未到期的节点，您可单击操作列的“退订”，即可实现对单个节点的资源释放。支持批量退订节点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
查询训练日志 - AI开发平台ModelArts

描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询APP是否存在 - AI开发平台ModelArts

为准。请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码： 200 表4 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：改问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 1819

上一页
1
...
86
87
88
...
91
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询训练作业列表 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

获取动态挂载OBS实例详情 - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

删除APP - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

删除工作空间 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练权重转换说明 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

查询APP是否存在 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线