搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

n"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --qua

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
W8A16量化 - AI开发平台ModelArts
W8A16量化 - AI开发平台ModelArts

to("cpu") quantized_model.save_pretrained("CodeLlama-34b-hf") 步骤二：启动量化服务使用量化模型需要在NPU的机器上运行。在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
查询作业资源规格 - AI开发平台ModelArts

String 云资源的规格类型。 max_num Integer 可以选择的最大节点数量。 unit_num Integer 计价单元个数。 storage String 资源规格的ssd大小。 interface_type Integer 接口类型。 no_resource Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

如果使用Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
发布和管理AI Gallery项目 - AI开发平台ModelArts

发布和管理AI Gallery项目在AI Gallery中，您可以将个人开发的Notebook代码免费分享给他人使用。前提条件在ModelArts的Notebook或者CodeLab中已创建好ipynb文件，开发指导可参见开发工具。发布Notebook 登录ModelArts管理控制台，选择“开发环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

用户名：输入DWS集群管理员用户的用户名。密码：输入DWS集群管理员用户的密码。从DWS导入数据，需要借助DLI的功能，如果用户没有访问DLI服务的权限，需根据页面提示创建DLI的委托。父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

配置VM环境。在docker机器中，使用如下命令下载安装脚本。 wget https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/modelarts/custom-image-build/install_on_ubuntu1804

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
管理AI Gallery中的AI应用 - AI开发平台ModelArts

管理AI Gallery中的AI应用当AI应用创建完成后，支持修改内容，例如修改环境变量、可见范围。约束限制当AI应用的“可见范围”是“私密”时，才支持修改环境变量、可见范围或删除AI应用。管理AI应用环境变量 AI应用支持增删改查环境变量，配置好的环境变量可以在运行文件中直接调用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

vServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

vServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

上开发环境，包含标准化昇腾算力资源和完整的迁移工具链，帮助用户完成昇腾迁移的调测过程，进一步可在平台上将迁移的模型一键部署成为在线服务向外提供推理服务，或者运行到自己的运行环境中。 MindSpore Lite 华为自研的AI推理引擎，后端对于昇腾有充分的适配，模型转换后可以在昇

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
Eagle投机小模型训练 - AI开发平台ModelArts

地址：https://huggingface.co/datasets/Aeala/ShareGPT_Vicuna_unfiltered/blob/main/ShareGPT_V4.3_unfiltered_cleaned_split.json 如果使用其他数据集，需要先执行步骤二

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
Standard资源管理 - AI开发平台ModelArts

Standard资源管理在使用ModelArts进行AI开发时，您可以选择使用如下两种资源池：专属资源池：专属资源池提供独享的计算资源，不与其他用户共享，资源更可控。使用ModelArts Standard开发平台的训练作业、部署模型以及开发环境时，可以使用Standard专

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

ECS、BMS节点创建失败？查看资源池失败报错信息：包含错误码，如：Ecs.0000时，可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。包含错误码，如：BMS.0001时，可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。包含错误码，如：CCE.01400001时，可查看云容器引擎

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

--per-channel：权重量化方法，如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。参考启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 使用llm-compre

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导 - AI开发平台ModelArts

本方案部署支持用BF16量化权重，使用的Ascend Snt9B资源规格见下表。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。表1 支持最小卡数和最大序列说明序号模型名

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用
Finetune训练 - AI开发平台ModelArts

tpu_use_cluster: false tpu_use_sudo: false use_cpu: false 启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_finetune.sh 所有数据保存在auto_log/avg_step_time

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
查询APP是否存在 - AI开发平台ModelArts

请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码：200 表4 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
准备数据（可选） - AI开发平台ModelArts

json.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json 数据存放参考目录结构如下： ${workdir}（例如/h

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备数据（可选） - AI开发平台ModelArts

_data.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json 数据存放参考目录结构如下： ${workdir}（例如/h

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 准备工作

总条数： 1551

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

W8A16量化 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

发布和管理AI Gallery项目 - AI开发平台ModelArts

从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

查询APP是否存在 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线