搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-token动态量化场景如需使用该场景量化方法，推理前向会自动计算kv-cache量化系数，并进行kv的量化。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
审核并验收团队标注任务结果 - AI开发平台ModelArts

全部通过：被驳回的样本，也会通过。全部驳回：已经通过的样本，需要重新标注，下次验收时重新进行审核。剩余全部通过：已经驳回的会驳回，其余会自动验收通过。剩余全部驳回：样本抽中的通过的，不需要标注了，未通过和样本未抽中的需要重新标注验收。图10 完成验收查看验收报告针对进行

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
AI Gallery简介 - AI开发平台ModelArts

AI Gallery的生态合作模块展示了伙伴赋能培训，该模块旨在与合作伙伴一起构建合作共赢的AI生态体系。 AI Gallery使用限制目前自动学习产生的模型暂不支持发布到AI Gallery。订阅或购买主要是获取AI资产的使用配额和使用权，支持在配额定义的约束下，有限地使用AI资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
使用kv-cache-int8量化 - AI开发平台ModelArts

如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-token动态量化场景如需使用该场景量化方法，推理前向会自动计算kv-cache量化系数，并进行kv的量化。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

进行扣费。在“费用中心 > 账单管理 > 流水和明细账单 > 流水账单”中，“消费时间”即按需产品的实际使用时间。查看自动学习和Workflow的账单自动学习和Workflow运行时，在进行训练作业和部署服务时，会产生不同的账单。训练作业产生的账单可参考查看训练作业的账单查询。

帮助中心 > AI开发平台ModelArts > 计费说明
创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

"data_path" : "/test-obs/classify/input/cat-dog/" } ], "description" : "", "work_path" : "/test-obs/classify/output/", "work_path_type"

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
精度调优前准备工作 - AI开发平台ModelArts

size 影响流水线并行中设备的计算效率。切分策略包括DP（Data Parallel）、TP（Tensor Parallel）、PP（Pipeline Parallel）。 DP：数据并行（Data Parallelism）是大规模深度学习训练中常用的并行模式，它会在每个进程(

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

Reset Content 重置内容，服务器处理成功。 206 Partial Content 服务器成功处理了部分GET请求。 300 Multiple Choices 多种选择。请求的资源可包括多个位置，相应可返回一个资源特征与地址的列表用于用户终端（例如：浏览器）选择。 301 Moved

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表。 per-token动态量化场景使用该场景量化方法，无需提前生成量化权重。推理前向会自动计算kv-cache量化系数，并进行kv的量化。在启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表。 per-token动态量化场景使用该场景量化方法，无需提前生成量化权重。推理前向会自动计算kv-cache量化系数，并进行kv的量化。在启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Storage Service）作为存储的方案，OBS用于存储模型文件、训练数据、代码、日志等，提供了高可靠性的数据存储解决方案。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格，只有llama3-8B/70B支持该功能。适配的CANN版本是cann_8.0.rc3，驱动版本是23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LLM大语言模型训练推理 - AI开发平台ModelArts

LLM大语言模型训练推理在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901）主流开源大模型基于Lite Server适配ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践
推理场景介绍 - AI开发平台ModelArts

本方案支持的软件配套版本和依赖包获取地址如表2所示。表2 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.908-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

at main (huggingface.co) 注意：Qwen2-VL 开源vllm依赖特定transformers版本，请手动安装： pip install git+https://github.com/huggingface/transformers.git@21fac7ab

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
MoXing常用操作的样例代码 - AI开发平台ModelArts

低。如果以写入模式或追加模式打开文件，当调用write方法时，待写入内容只是暂时的被存在的缓冲区，直到关闭文件对象（退出with语句时会自动关闭文件对象）或者主动调用文件对象的close()方法或flush()方法时，文件内容才会被写入。列举操作列举一个OBS目录，只返回顶层结果（相对路径），不做递归列举。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

nets.nets_factory: class NetworkKeys(builtins.object) | Data descriptors defined here: | | __dict__ | dictionary for instance variables

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

将数据和应用程序加密，以保护数据的机密性和完整性。确保模型的相关软件都得到及时的安全更新和漏洞修补。遵守相关的合规性要求，如GDPR、HIPAA、PCI DSS等。进行适当的访问控制，以确保只有授权用户可以访问管理在线服务等相关资源。监控和报告任何异常活动，并及时采取措施。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

表9 镜像详情软件类型版本详情操作系统 Ubuntu 20.04 server 64bit 架构类型 x86 RoCE路由配置不支持自动配置，需创建后手动配置。 GP Lnt002弹性云服务器支持的镜像详情镜像名称：Ubuntu-22.04-server-64bit-with-Tesla-Driver-535

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
推理场景介绍 - AI开发平台ModelArts

本方案支持的软件配套版本和依赖包获取地址如表2所示。表2 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）

总条数： 1609

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

审核并验收团队标注任务结果 - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

LLM大语言模型训练推理 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线