搜索_华为云

管理Lite Cluster资源池 - AI开发平台ModelArts

节点池管理操作请参见管理Lite Cluster节点池节点管理操作请参见管理Lite Cluster节点扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池升级Lite Cluster资源池驱动操作请参见升级Lite Cluster资源池驱动升级Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像构建容器镜像并调试镜像构建及调试与单机单卡相同。具体操作，请参考线下容器镜像构建及调试。上传镜像请参考单机单卡训练的上传镜像章节操作。父主题：单机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

greater than the threshold (25G)”，镜像创建失败。原因分析镜像保存本质是通过在资源集群节点上的agent中进行了docker commit，再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销，层数越多镜像越大，如果多次保存后

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
推理精度测试 - AI开发平台ModelArts

├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本精度评测切换conda环境，确保之前启动服务为vllm接口，进入到be

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
使用AWQ量化 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step4 启动AWQ量化服务参考部署推理服务，使用量化后权重部署AWQ量化服务。注：Step3 创建服务启动脚本启动脚本中，服务启动命令需添加如下命令。 -q awq 或者--quantization awq

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step4 启动AWQ量化服务参考部署推理服务，使用量化后权重部署AWQ量化服务。注：Step3 创建服务启动脚本启动脚本中，服务启动命令需添加如下命令。 -q awq 或者--quantization awq

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
管理Lite Cluster节点池 - AI开发平台ModelArts

在节点池管理的更新页面，可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。在Lite资源池的扩缩容页面，也可以查看节点池的存储配置信息。查找搜索节点池在节点池管理页面的搜索栏中，支持通过节点池名称、规格、容器引擎空间大小、可用区等关键字搜索节点池。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
推理精度测试 - AI开发平台ModelArts

├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本精度评测切换conda环境，确保之前启动服务为vllm接口，进入到be

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
语言模型推理性能测试 - AI开发平台ModelArts

l.csv。 --num-scheduler-steps: 服务启动时如果配置了--num-scheduler-steps和--multi-step-stream-outputs=false，则需配置此参数与服务启动时--num-scheduler-steps一致。 --served-model-name：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
语言模型推理性能测试 - AI开发平台ModelArts

l.csv。 --num-scheduler-steps: 服务启动时如果配置了--num-scheduler-steps和--multi-step-stream-outputs=false，则需配置此参数与服务启动时--num-scheduler-steps一致。 --served-model-name：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
使用AWQ量化 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step4 启动AWQ量化服务参考部署推理服务，使用量化后权重部署AWQ量化服务。注：Step3 创建服务启动脚本启动脚本中，服务启动命令需添加如下命令。 -q awq 或者--quantization awq

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
创建Standard专属资源池 - AI开发平台ModelArts

议商用场景选择手动分配，确保网段符合用户诉求。自定义：需要自定义K8S容器网段和K8S服务网段。 K8S容器网段：集群下容器使用的网段，决定了集群下容器的数量上限。创建后不可修改。 K8S服务网段：同一集群下容器互相访问时使用的Service资源的网段。决定了Service资源的上限。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

proxy_pass http://127.0.0.1:8501; } } 准备启动脚本。启动前先创建ssl证书，然后启动TFServing的启动脚本。启动脚本run.sh示例代码如下： #!/bin/bash mkdir -p /etc/nginx/ssl/server

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
不同机型的对应的软件配套版本 - AI开发平台ModelArts

集群规模：50|200|1000|2000 集群网络模式：容器隧道网络|VPC 集群转发模式：iptables|ipvs 驱动和插件版本与CCE集群版本适配关系表3 插件版本与CCE集群版本适配关系类别插件名称插件版本适配CCE集群版本适用范围、约束插件功能描述 npuDriver

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
SFT全参微调训练 - AI开发平台ModelArts

考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。图1 创建训练作业训练作业启动命令中输入： cd /home/ma-user/work/Qwen-VL; ln -s ${DATA}/ qwenvl_dataset;

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
模型使用CV2包部署在线服务报错 - AI开发平台ModelArts

所以ModelArts不支持从对象存储服务（OBS）导入CV2模型包。处理方法需要您把CV2包制作为自定义镜像，上传至容器镜像服务（SWR），选择从容器镜像中导入元模型，部署在线服务。如何制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Standard模型训练 - AI开发平台ModelArts

Standard模型训练 ModelArts Standard模型训练提供容器化服务和计算资源管理能力，负责建立和管理机器学习训练工作负载所需的基础设施，减轻用户的负担，为用户提供灵活、稳定、易用和极致性能的深度学习训练环境。通过ModelArts Standard模型训练，用户可以专注于开发、训练和微调模型。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
部署推理服务 - AI开发平台ModelArts

启动pod成功执行如下命令查看pod日志，若打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明： ${pod_name}：pod名，例如图1${pod_name}为yourapp-87d9b5b46-c46bk。图2 启动服务成功

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

务”、“批量服务”和“边缘服务”。 “启动命令” 选填参数，指定模型的启动命令，您可以自定义该命令。如果使用预置的AI引擎，如果启动命令没有填写，会使用默认的启动命令，默认的启动命令见表1。如果填写了启动命令，新填写的启动命令覆盖默认启动命令。说明：包含字符$，|，>，<，`，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型

总条数： 2178

上一页
1
...
15
16
17
...
109
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

管理Lite Cluster资源池 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

模型使用CV2包部署在线服务报错 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线