搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置物理机环境操作。镜像地址本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

除按小时结算的训练作业资源，但是8:00~9:00期间产生的费用，通常会在10:00左右才进行扣费。对于在线/批量/边缘服务，因资源ID与账单中上报的资源ID不一致，所以需通过如下方法查询账单停止计费：使用公共资源池创建的在线/批量/边缘服务，通过此方式停止服务后，即可停止计费。

帮助中心 > AI开发平台ModelArts > 计费说明
推理精度测试 - AI开发平台ModelArts

opencompass.sh 参数说明: vllm_path：构造vllm评测配置脚本名字，默认为vllm。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
非分离部署推理服务 - AI开发平台ModelArts

WQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
在Workflow中更新已部署的服务 - AI开发平台ModelArts

在线服务开关默认关闭，节点走部署服务的流程；如果需要更新服务，则手动打开开关，选择相应的在线服务即可。进行服务更新时，需要保证被更新的服务所使用的模型与配置的模型名称相同。父主题：开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
订阅Workflow - AI开发平台ModelArts

版本”、“限制”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。 Workflow被订阅后，详情页的“订

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
配置ModelArts委托授权 - AI开发平台ModelArts

务中。本章节主要介绍一键式自动授权方式。一键式自动授权方式支持给IAM子用户、联邦用户（虚拟IAM用户）、委托用户和所有用户授权。约束与限制华为云账号只有华为云账号可以使用委托授权，可以为当前账号授权，也可以为当前账号下的所有IAM用户授权。多个IAM用户或账号，可使用同一个委托。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
创建Workflow模型注册节点 - AI开发平台ModelArts

版本不可以出现例如01.01.01等以0开头的版本号形式。否 str、Placeholder runtime 模型运行时环境，runtime可选值与model_type相同。否 str、Placeholder description 模型备注信息，1-100位长度，不能包含&!'"<>=

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
在推理生产环境中部署推理服务 - AI开发平台ModelArts

336）shape，将会被resize。 --image-feature-size：图片输入解析维度大小；llava-v1.6图片输入维度与image-feature-size关系映射表见git；计算原理如下：最小处理单元为14*14 【llava1.5】 336*336图像 ==(336/14=24)>>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

型地址，模型格式是HuggingFace的目录格式。即Step2 准备权重文件上传的HuggingFace权重文件存放目录。投机草稿模型为与--model入参同系列，但是权重参数远小于--model指定的模型。若未使用投机推理功能，则无需配置。 --num-speculative

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

336）shape，将会被resize。 --image-feature-size：图片输入解析维度大小；llava-v1.6图片输入维度与image-feature-size关系映射表见git；计算原理如下：最小处理单元为14*14 【llava1.5】 336*336图像 ==(336/14=24)>>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

即会出现该报错。可以通过以下方式解决问题：服务预测请求内容过大时，会因数据处理慢导致请求超时，优化预测代码，缩短预测时间。推理速度与模型复杂度强相关，优化模型，缩短预测时间。扩容实例数或者选择性能更好的“计算节点规格”，例如使用GPU资源代替CPU资源，提升服务处理能力。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

安装nvidia-fabricmanager Ant系列GPU支持NvLink & NvSwitch，若您使用多GPU卡的机型，需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联，否则可能无法正常使用GPU实例。 nvidia-fabricmanager必须和nvidia

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
查询算法列表 - AI开发平台ModelArts

le）、不支持（singular）。 value Array of strings 资源约束键对应值。 operator String 键与值关系，当前只支持in。例如flavor_type in [CPU,GPU]。表16 advanced_config 参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

EN+AWQ 方式二：使用AutoAWQ量化工具进行量化。 1、在容器中使用ma-user用户， vLLM使用transformers版本与awq冲突，需要切换conda环境，运行以下命令下载并安装AutoAWQ源码。 conda create --name awq --clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化

总条数： 523

上一页
1
...
22
23
24
...
27
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

配置ModelArts委托授权 - AI开发平台ModelArts

创建Workflow模型注册节点 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线