搜索_华为云

删除工作空间 - AI开发平台ModelArts

准。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码： 200 表3 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
查询APP是否存在 - AI开发平台ModelArts

为准。请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码： 200 表4 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
附录：训练常见问题 - AI开发平台ModelArts

O-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
Notebook时长续约 - AI开发平台ModelArts

/v1/{project_id}/notebooks/{id}/lease 表1 路径参数参数是否必选参数类型描述 id 是 String Notebook实例ID，可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。表2

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

error”。这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：如果是“包年/包月”且资源未到期的节点，您可单击操作列的“退订”，即可实现对单个节点的资源释放。支持批量退订节点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查询训练日志 - AI开发平台ModelArts

描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

件“authorized_keys config id_rsa id_rsa.pub”。提交创建训练作业后，训练过程中，训练作业的节点可通过域名+端口的方式SSH连接到其他节点，示例代码如下所示： ssh modelarts-job-a0978141-1712-4f9b-8a8

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
设置无条件自动重启 - AI开发平台ModelArts

则表示仅环境问题导致训练作业异常时才会自动重启，其他问题导致训练作业异常时会直接返回“运行失败”。图1 开启无条件重启 API接口设置通过API接口创建训练作业时，在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：该问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：该问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
删除资源标签 - AI开发平台ModelArts

该字段内容填为“application/json;charset=utf8。 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。表3 请求Body参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
动态挂载OBS - AI开发平台ModelArts

}/storage 表1 路径参数参数是否必选参数类型描述 instance_id 是 String Notebook实例ID，可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。请求参数

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

console的预测页签进行的预测，由于console的网络链路的不同，要求请求体的大小不超过8MB。图2 请求报错APIG.0201 APIG.0301 鉴权失败通过API进行服务预测，或者使用Token进行APP认证，需要获取正确的Token鉴权，当Token不合法时，APIG（API网关）拦截请求，报错“APIG

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
管理AI Gallery模型 - AI开发平台ModelArts

资产申请审核”页面，在页面进行用户权限处理。撤销审批：单击用户操作列的“撤销”可以取消已审批通过或已拒绝的用户权限，用户的“审批状态”从“已审批”变成“未审批”，或者从“已拒绝”变成“未审批”。同意用户使用该资产：单击用户操作列的“同意”可以通过用户的申请，用户的“审批状态”从“未审批”变成“已审批”。拒

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
查询训练作业的运行指标 - AI开发平台ModelArts

描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
获取项目ID和名称 - AI开发平台ModelArts

和名称（即“项目”）。图1 查看项目ID 多项目时，展开“所属区域”，从“项目ID”列获取子项目ID。调用API获取项目ID 项目ID通过调用查询指定条件下的项目信息API获取。获取项目ID的接口为GET https://{iam-endpoint}/v3/projects

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明若用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明

总条数： 1824

上一页
1
...
87
88
89
...
92
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

删除工作空间 - AI开发平台ModelArts

查询APP是否存在 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

Notebook时长续约 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

删除资源标签 - AI开发平台ModelArts

动态挂载OBS - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

管理AI Gallery模型 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

获取项目ID和名称 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线