搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

n denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod 777 -R ${dir} 问题3：训练过程报错：ImportError: XXX not found

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

Required 保留请求。 403 Forbidden 请求被拒绝访问。返回该状态码，表明请求能够到达服务端，且服务端能够理解用户请求，但是拒绝做更多的事情，因为该请求被设置为拒绝访问，建议直接修改该请求，不要重试该请求。 404 NotFound 所请求的资源不存在。建议直接修改该请求，不要重试该请求。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
训练作业容错检查 - AI开发平台ModelArts

容错检查失败时，会打印检查失败的日志。您可以通过在日志中搜索“item”关键字查看失败信息。如果作业重启次数没有达到设定的次数，则会自动做重新下发作业。您可以通过搜索“error,exiting”关键字查找作业重启失败结束的日志。使用reload ckpt恢复中断的训练在容

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询预置算法 - AI开发平台ModelArts

{\"label\":\"eval_frequence\",\"value\":\"1\",\"placeholder_cn\":\"对模型做验证的频率，默认为每个epoch都做\",\"placeholder_en\":\"\",\"required\":true},{\"label\":\"mom\"

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
更新服务配置 - AI开发平台ModelArts

能小于0（最多支持2位小数，小数点后第3位做四舍五入处理）。 memory 是 Integer 内存，单位为MB，仅支持整数。 cpu 是 Float CPU核数，支持配置小数，输入值不能小于0.01（最多支持2位小数，小数点后第3位做四舍五入处理）。 ascend_a310 否

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建智能标注作业 - AI开发平台ModelArts

算法类型针对“图像分类”类型的数据集，您需要选择以下参数。 “快速型”：仅使用已标注的样本进行训练。 “精准型”：会额外使用未标注的样本做半监督训练，使得模型精度更高。计算节点规格即智能标注任务使用的资源规格。说明：智能标注创建时免费，但OBS存储会按需收费，请参考计费

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
配置多分支节点数据 - AI开发平台ModelArts

else_then_steps=["training_job_2"], ) # 构建一个OutputStorage对象，对训练输出目录做统一管理 storage = wf.data.OutputStorage(name="storage_name", title="title_info"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
查询服务详情 - AI开发平台ModelArts

值不能小于0（最多支持2位小数，小数点后第3位做四舍五入处理）。 memory Integer 内存，单位为MB，仅支持整数。 cpu Float CPU核数，支持配置小数，输入值不能小于0.01（最多支持2位小数，小数点后第3位做四舍五入处理）。 ascend_a310 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

X-Sdk-Date 请求的发生时间，格式为(YYYYMMDD'T'HHMMSS'Z')。取值为当前系统的GMT时间。否，如果使用AK/SK做接口认证的时候，那么此字段必须设置；如果使用PKI token的时候，不必设置。 20190307T101459Z Authorization

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
自定义镜像使用场景 - AI开发平台ModelArts

属预置镜像列表。自定义镜像：用户参照ModelArts镜像规范制作的镜像。基础镜像：镜像制作的一个基本概念，先有基础镜像然后在此基础上做镜像。基础镜像可以是ModelArts预置镜像、第三方镜像。自定义镜像功能关联服务介绍容器镜像服务容器镜像服务（Software Repository

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
分离部署推理服务 - AI开发平台ModelArts

如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 3.权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下： df -h 步骤四制作推理镜像解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下： df -h Step4 制作推理镜像解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 3.权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下： df -h 步骤四制作推理镜像解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
PD分离部署使用说明 - AI开发平台ModelArts

仅在环境变量USE_OPENAI=1时生效。 --quantization：如果需要增加模型量化功能，启动推理服务前，先参考量化章节对模型做量化处理。 --prefill-batching-policy：针对PD分离场景下的P实例调度策略选择，支持fcfs（先来先服务，vllm默认）及gtsf（Group

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
NPU日志收集上传 - AI开发平台ModelArts

云技术支持，用于授权认证。约束限制当前仅支持在贵阳一、乌兰察布一使用该功能。操作步骤获取AK/SK。该AK/SK用于后续脚本配置，做认证授权。如果已生成过AK/SK，则可跳过此步骤，找到原来已下载的AK/SK文件，文件名一般为：credentials.csv。如下图所示，文件包含了租户名（User

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查看卡间通信配置文件，执行以下命令。 cat /user/config/jobstart_hccl.json 多卡训练时，需要依赖“rank_table_file”做卡间通信的配置文件，该文件自动生成，pod启动之后文件地址。为“/user/config/jobstart_hccl.json”，“/use

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备推理环境 - AI开发平台ModelArts

表。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考大模型训练相关文档。权重要求放在磁盘的指定目录，并做目录大小检查，参考命令如下。 df -h 步骤四：制作推理镜像解压AscendCloud压缩包及该目录下的推理代码AscendCloud-LLM-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
什么是Workflow - AI开发平台ModelArts

署落地。AI开发并不是一个单向的流水线作业，在开发的过程中，会根据数据和模型结果进行多轮的实验迭代。算法工程师会根据数据特征以及数据的标签做多样化的数据处理以及多种模型优化，以获得在已有的数据集上更好的模型效果。传统的模型交付会直接在实验迭代结束后以输出的模型为终点。当应用上线后

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
Lite Cluster资源配置流程 - AI开发平台ModelArts

kubectl工具。 docker run方式启动任务。 Snt9B集群在纳管到CCE集群后，会安装容器运行时，下文以docker举例。仅做测试验证，可以不需要通过创建deployment或者volcano job的方式，直接启动容器进行测试。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
发布Workflow到ModelArts - AI开发平台ModelArts

placeholder_type=wf.PlaceholderType.FLOAT, default=1.0, description="每训练n个epoch做一次验证")), wf.AlgorithmParameters(name="save_model_secs", value=wf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow

总条数： 97

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

创建智能标注作业 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线