搜索_华为云

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

sampler, 基于当前的epoch为其设置随机数，避免加载到重复数据 ### tr_sampler.set_epoch(epoch) ### 分布式改造，DDP sampler, 基于当前的epoch为其设置随机数，避免加载到重复数据 ###

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
扩缩容Standard专属资源池 - AI开发平台ModelArts

如果购买资源池时，节点数量采用整柜方式购买（部分规格支持），则在扩缩容时为整柜方式扩缩容，目标实例总数等于“数量*整柜”。“整柜”参数为创建资源池时选择，扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。用户增加实例数量时，可以通过指定节点计费模式，为资源池新创建的节点设置不同于资源池的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
启动/停止/删除实例 - AI开发平台ModelArts

余目录下内容会被清理。例如：用户在开发环境中的其他目录下安装的外部依赖包等，在Notebook停止后会被清理。您可以通过保存镜像的方式保留开发环境设置，具体操作请参考保存Notebook实例。 Notebook实例将停止计费，但如有EVS盘挂载，存储部分仍会继续计费。删除实例

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
如何调用API - AI开发平台ModelArts

如何调用API 构造请求认证鉴权返回结果

 帮助中心 > AI开发平台ModelArts > API参考
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
删除资源标签 - AI开发平台ModelArts

删除资源标签功能介绍删除服务（目前只支持在线服务）的标签，支持批量删除。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v1/{project_

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

ANN的报错日志和dump图进行具体分析。配置方式参考如下：打开DEBUG日志。设置MindSpore日志环境变量。 export GLOG_v=0 # 0-DEBUG、1-INFO、2-WARNING、3-ERROR 设置CANN日志环境变量。 # 0：表示DEBUG。1

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

添加入方向规则，允许外部访问9090端口。如果使用Grafana对接Prometheus制作报表，可以将Grafana部署在集群内，这里不需要对Prometheus绑定公网IP和配置安全组，只需要对Grafana绑定公网IP和配置安全组即可。图1 添加入方向规则在浏览器地

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

0）上，用于分布式训练期间通信的端口。默认设置为18888端口。当遇到master_port冲突问题时，可通过设置MA_TORCHRUN_MASTER_PORT环境变量值修改端口配置。 rdzv_id：Rendezvous标识，设置为带有训练作业ID的值。 rdzv_backe

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

问题9：使用benchmark-tools访问推理服务返回报错使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于m

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
托管模型到AI Gallery - AI开发平台ModelArts

规范，否则该模型无法正常使用AI Gallery工具链服务（微调大师和在线推理服务）。当托管的是自定义镜像时，上传的模型文件要满足自定义镜像规范，否则该镜像无法正常使用AI Gallery工具链服务（微调大师和在线推理服务）。当文件状态变成“上传成功”表示数据文件成功上传至AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业创建训练作业查询训练作业列表查询训练作业版本详情删除训练作业版本查询训练作业版本列表创建训练作业版本停止训练作业版本更新训练作业描述删除训练作业获取训练作业日志的文件名查询预置算法查询训练作业日志父主题：训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
demo.sh方式启动（历史版本） - AI开发平台ModelArts

demo.sh方式启动（历史版本）本章节介绍历史版本的训练任务启动方式。6.3.912版本同时兼容历史版本的训练任务启动方式。步骤一：上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
模型推理代码编写说明 - AI开发平台ModelArts

在编写说明下方提供了一个TensorFlow引擎的推理代码示例以及一个在推理脚本中自定义推理逻辑的示例。 ModelArts推理因API网关（APIG）的限制，模型单次预测的时间不能超过40S，模型推理代码编写需逻辑清晰，代码简洁，以此达到更好的推理效果。推理代码编写指导在模

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
配额与限制 - AI开发平台ModelArts

配额与限制本节介绍ModelArts涉及的相关云服务的配额限制，帮助用户查看和管理自己的配额。什么是配额配额是在某一区域下最多可同时拥有的某种资源的数量。华为云为防止资源滥用，对云服务每个区域的用户资源数量和容量做了配额限制。如果当前资源配额限制无法满足使用需要，您可以申请扩大配额。

帮助中心 > AI开发平台ModelArts > 产品介绍
推理精度测试 - AI开发平台ModelArts

#运行opencompass脚本 ├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保Notebook内通网，已

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
模型配置文件编写说明 - AI开发平台ModelArts

块。 apis 否 api数据结构数组表示模型接收和返回的请求样式，为结构体数据。即模型可对外提供的Restful API数组，API数据结构如表3所示。示例代码请参见apis参数代码示例。 “model_type”为“Image”时，即自定义镜像的模型场景，“apis”可根

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
附录：大模型推理常见问题 - AI开发平台ModelArts

问题9：使用benchmark-tools访问推理服务返回报错使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于m

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）

总条数： 2324

上一页
1
...
61
62
63
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

如何调用API - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

删除资源标签 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

demo.sh方式启动（历史版本） - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线