搜索_华为云

使用AWQ量化 - AI开发平台ModelArts

方式二：使用AutoAWQ量化工具进行量化。执行如下命令进入容器，并进入AutoAWQ目录下， vLLM使用transformers版本与awq冲突，需要切换conda环境，运行以下命令下载并安装AutoAWQ源码。 kubectl exec -it {pod_name} bash

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

用户需有一定的Java开发经验，熟悉jar打包流程。用户需了解WebSocket协议的基本概念及调用方法。用户需熟悉Docker制作镜像的方法。约束与限制 WebSocket协议只支持部署在线服务。只支持自定义镜像导入模型部署的在线服务。准备工作 ModelArts使用WebSocke

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用AWQ量化 - AI开发平台ModelArts

方式二：使用AutoAWQ量化工具进行量化。执行如下命令进入容器，并进入AutoAWQ目录下， vLLM使用transformers版本与awq冲突，需要切换conda环境，运行以下命令下载并安装AutoAWQ源码。 kubectl exec -it {pod_name} bash

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 准备工作
推理精度测试 - AI开发平台ModelArts

opencompass.sh 参数说明: vllm_path：构造vllm评测配置脚本名字，默认为vllm。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
创建网络资源 - AI开发平台ModelArts

描述 sfsId String SFS Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用AWQ量化 - AI开发平台ModelArts

方式二：使用AutoAWQ量化工具进行量化。执行如下命令进入容器，并进入AutoAWQ目录下， vLLM使用transformers版本与awq冲突，需要切换conda环境，运行以下命令下载并安装AutoAWQ源码。 kubectl exec -it {pod_name} bash

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档适用于OBS+SFS Turbo的数据存储方案，不适用于仅使用OBS的存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等，再将OBS中的数据文件导入到SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
推理精度测试 - AI开发平台ModelArts

vllm_path：构造vllm评测配置脚本名字，默认为vllm。 host：与起服务的host保持一致，比如起服务为0.0.0.0，host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

vllm_path：构造vllm评测配置脚本名字，默认为vllm。 host：与起服务的host保持一致，比如起服务为0.0.0.0，host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911）
查看训练作业日志 - AI开发平台ModelArts

1*Snt9时，device id取值为0。 rank id为本次训练作业的全局NPU卡编号，取值为0~实例数*卡数-1，单个实例下，rank id与device id取值相同。样例： modelarts-job-95f661bd-1527-41b8-971c-eca55e513254-

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

AK/SK签名认证方式，仅支持Body体12M以内，12M以上的请求，需使用Token认证。客户端须注意本地时间与时钟服务器的同步，避免请求消息头X-Sdk-Date的值出现较大误差。因为API网关除了校验时间格式外，还会校验该时间值与网关收到请求的时间差，如果时间差超过15分钟，API网关将拒绝请求。约束限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
查询模型runtime - AI开发平台ModelArts

不分页的情况下符合查询条件的总数量。 total_count Integer 当前查询结果的数量，不设置offset、limit查询参数时，count与total相同。 engine_runtimes Array of EngineAndRuntimesResponse objects 引擎运行环境。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
自定义引擎创建模型规范 - AI开发平台ModelArts

py启动服务器，app.py请参考https示例 python app.py 除了按上述要求设置启动命令，您也可以在镜像中自定义启动命令，在创建模型时填写与您镜像中相同的启动命令。提供的服务可使用HTTPS/HTTP协议和监听的容器端口，使用的协议和端口号请根据模型实际定义的推理接口进行配置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

个的第三方库，当前在WebUI适配时，并没有特别好的方式。在对后端实现比较理解的情况下，建议针对具体的功能进行Diffusers模块的适配与替换，然后针对替换上去的Diffusers，对其pipeline进行昇腾迁移适配，进而替代原有WebUI的功能。针对很多参数以及三方加速库（

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

安装nvidia-fabricmanager Ant系列GPU支持NvLink & NvSwitch，若您使用多GPU卡的机型，需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联，否则可能无法正常使用GPU实例。 nvidia-fabricmanager必须和nvidia

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
查询服务列表 - AI开发平台ModelArts

不分页的情况下符合查询条件的总服务数量。 count Integer 当前查询结果的服务数量，不设置offset、limit查询参数时，count与total相同。 services Array of ListServices objects 查询到的服务集合。表5 ListServices

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

元模型来源：选择“从容器镜像中选择” 容器镜像所在的路径：选择已制作好的自有镜像图4 选择已制作好的自有镜像容器调用接口：指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。镜像复制：选填，选择是否将容器镜像中的模型镜像复制到ModelArts中。健康检查：选填，用于指

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

py”。可通过以下方式使用指定的“conda env”启动训练：方式一：为镜像设置正确的“DEFAULT_CONDA_ENV_NAME”环境变量与“ANACONDA_DIR”环境变量。 ANACONDA_DIR=/home/ma-user/anaconda3 DEFAULT_CONDA_ENV_NAME=python-3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

单击“注册镜像”。请将完整的SWR地址复制到这里即可，或单击可直接从SWR选择自有镜像进行注册。 “架构”和“类型”根据实际情况选择，与镜像源保持一致。创建Notebook并使用镜像注册成功后，即可在ModelArts控制台的“开发环境 > Notebook”页面，创建开发环境时选择该自定义镜像。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook

总条数： 831

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线