搜索_华为云

使用SmoothQuant量化 - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图1 查询结果执行权重转换。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

种硬件自检或修复机制，从而恢复了正常的带宽。系统负载问题：最初测试GPU卡间带宽时，可能存在其他系统负载，如进程、服务等，这些负载会占用一部分网络带宽，从而影响NVLINK带宽的表现。重新安装软件后，这些负载可能被清除，从而使NVLINK带宽恢复正常。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
查询标注团队的成员列表 - AI开发平台ModelArts

workforce_id 是 String 标注团队ID。表2 Query参数参数是否必选参数类型描述 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100]，默认为10。 offset 否 Integer 分页列表的起始页，默认为0。 order 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
修改工作空间配额 - AI开发平台ModelArts

Integer 最后修改时间，UTC。如用户未修改过该资源配额,则该值默认为该工作空间的创建时间。 resource String 资源的唯一标识。 quota Integer 当前配额值。配额值为-1代表不限制配额。 min_quota Integer 配额允许设置的最小值。 name_cn

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
查询模型对象列表 - AI开发平台ModelArts

String 描述信息，可支持模糊匹配。 offset 否 Integer 指定要查询页的索引，默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数，默认为“280”。 sort_by 否 String 指定排序字段，可选“create_at”、“model_versi

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
查询服务列表 - AI开发平台ModelArts

dge，默认不过滤推理方式。 offset 否 Integer 分页列表的起始页，默认为：“0”。 limit 否 Integer 指定每一页返回的最大条目数，默认为：“1000”。 service_status 否 String 服务状态，默认不过滤服务状态。可根据服务状态查询，取值如下。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用SmoothQuant量化 - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，若希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图1 查询结果执行权重转换。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图1 查询结果执行权重转换。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
推理场景介绍 - AI开发平台ModelArts

资源规格推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9B资源。推理部署使用的服务框架是vLLM。vLLM支持v0.3.2。支持FP16和BF16数据类型推理。资源规格要求本文档中的模型运行环境是ModelArts Lite的Server。推荐使用“西南-贵阳一”Region上的资源和Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
推理场景介绍 - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.909版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

912版本，请参考获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的Server资源和Ascend Snt9B。获取软件和镜像表1 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
通过patch操作对服务进行更新 - AI开发平台ModelArts

的值的目标路径（Json PATH）。当前支持且仅支持对模型相关所有参数的替换更新，因此前缀固定为“/config/”。例如，当期望更新第一个模型中的实例数量，则路径为“/config/0/instance_count”。 value 否 String 替换的目标值。响应参数状态码：200

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询服务监控信息 - AI开发平台ModelArts

service_instance_count Integer 服务实例数量。 req_count_per_min Long 服务分钟调用量，这里指当前时间上一分钟的服务调用总量。表5 Monitor 参数参数类型描述 failed_times Integer 模型实例调用失败次数，在线服务字段。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

和支持的特性能力。当前版本仅适用于华为公有云。配套的基础镜像芯片镜像地址获取方式镜像软件说明配套关系 Snt9B 西南-贵阳一 PyTorch： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

9-hce_2.0.2409-aarch64-snt9b-20241113174059-fcd3700 镜像发布到SWR， region：西南-贵阳一，从SWR拉取固件驱动：23.0.6 CANN：cann_8.0.rc3 容器镜像OS：hce_2.0 PyTorch：pytorch_2

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
查询算法详情 - AI开发平台ModelArts

算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。 boot_file String 算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。 command String 自定义镜像算法的容器启动命令。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询数据集标签列表 - AI开发平台ModelArts

否 String 数据集版本ID。 offset 否 Integer 分页列表的起始页，默认为0。 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100000]，默认为100000。请求参数无响应参数状态码： 200 表3 响应Body参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询服务事件日志 - AI开发平台ModelArts

过滤事件发生时间的截止时间，默认不过滤。 offset 否 Integer 分页列表的起始页，默认为0。 limit 否 Integer 指定每一页返回的最大条目数，默认为1000。 sort_by 否 String 指定排序字段，默认为occur_time（事件产生时间）。 order

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询服务对象列表 - AI开发平台ModelArts

edge，默认不过滤推理方式。 offset 否 Integer 分页列表的起始页，默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数，默认为“1000”。 sort_by 否 String 指定排序字段，可选“publish_at”、“service_n

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
训练精度测试 - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt 执行下游评估为增加精度评测的稳定性及进一步确保训练精度，使用多个数据集【MMLU、CEVAL】评测，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具

总条数： 1452

上一页
1
...
67
68
69
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

查询标注团队的成员列表 - AI开发平台ModelArts

修改工作空间配额 - AI开发平台ModelArts

查询模型对象列表 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

通过patch操作对服务进行更新 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

查询数据集标签列表 - AI开发平台ModelArts

查询服务事件日志 - AI开发平台ModelArts

查询服务对象列表 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线