搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
推理精度测试 - AI开发平台ModelArts

py 中的 fix_id_list, 将最大值适当调低。 ppl困惑度评测一般用于base权重测评，会将n个选项上拼接上下文，形成n个序列，再计算这n个序列的困惑度(perplexity)。其中，perplexity最小的序列所对应的选项即为这道题的推理结果。运行时间比较长，例如llama3_8b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
新建Workflow工作流 - AI开发平台ModelArts

SMN开关。 subscription_id 否 String SMN消息订阅ID。 exeml_template_id 否 String 自动学习模板ID。 last_modified_at 否 String 最近一次修改的时间。 package 否 WorkflowServicePackege

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

程运行时，DEVICE侧产生的AICPU、HCCP的日志，这些日志会被回传到HOST侧。 CANN日志：CANN日志是昇腾（Ascend）计算架构中用于记录CANN（Compute Architecture for Neural Networks）模块运行时信息的日志。在模型转换过程中，如果遇到“Convert

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E 请联系您所在企业的华为方技术支持下载获取。表2 支持的模型类型和权重获取地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E 请联系您所在企业的华为方技术支持下载获取。表2 支持的模型列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
获取Workflow工作流列表 - AI开发平台ModelArts

Boolean SMN开关。 subscription_id String SMN消息订阅ID。 exeml_template_id String 自动学习模板ID。 last_modified_at String 最近一次修改的时间。 package WorkflowServicePackege

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
推理精度测试 - AI开发平台ModelArts

py 中的 fix_id_list, 将最大值适当调低。 ppl困惑度评测一般用于base权重测评，会将n个选项上拼接上下文，形成n个序列，再计算这n个序列的困惑度(perplexity)。其中，perplexity最小的序列所对应的选项即为这道题的推理结果。运行时间比较长，例如llama3_8b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
自定义模型规范 - AI开发平台ModelArts

true, "default": 0.001, "help": "学习率" }, { "name": "

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
查询资源规格列表 - AI开发平台ModelArts

ResourceFlavorSpec 参数参数类型描述 type String 资源规格类型。可选值如下： Dedicate：物理资源 cpuArch String 计算机架构。可选值如下： x86：x86架构 arm64：ARM架构 cpu String CPU核心数量。 memory String 内存大小，单位为Gi。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用kv-cache-int8量化 - AI开发平台ModelArts

如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-token动态量化场景如需使用该场景量化方法，推理前向会自动计算kv-cache量化系数，并进行kv的量化。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

服务预测请求内容过大时，会因数据处理慢导致请求超时，优化预测代码，缩短预测时间。推理速度与模型复杂度强相关，优化模型，缩短预测时间。扩容实例数或者选择性能更好的“计算节点规格”，例如使用GPU资源代替CPU资源，提升服务处理能力。服务出错报错：{"error_code": "ModelArts.4503"

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
自定义镜像规范 - AI开发平台ModelArts

true, "default": 0.001, "help": "学习率" }, { "name": "

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
使用MaaS压缩模型 - AI开发平台ModelArts

”，创建压缩任务。模型压缩运行时会产生费用，压缩时长与选取模型及压缩方式有关。该预估费用不包含OBS存储费用。预估费用基于目录价和预估时长计算，估算存在波动性，最终以实际发生为准。在“模型压缩”列表中，当压缩作业的“状态”变成“已完成”时，表示模型压缩完成。模型压缩时长估算表4

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

图片的色彩饱和度，值越大表示图片整体色彩越容易分辨。一般呈正态分布，一般用于比较训练集和真实场景数据集的差异。清晰度 Clarity 图片清晰程度，使用拉普拉斯算子计算所得，值越大代表边缘越清晰，图片整体越清晰。可根据使用场景判断清晰度是否满足需要。比如使用场景的数据采集来自高清摄像头，那么清晰度对应的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表。 per-token动态量化场景使用该场景量化方法，无需提前生成量化权重。推理前向会自动计算kv-cache量化系数，并进行kv的量化。在启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。 --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表。 per-token动态量化场景使用该场景量化方法，无需提前生成量化权重。推理前向会自动计算kv-cache量化系数，并进行kv的量化。在启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。 --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

ModelArts.5306 The maximum depth of files has been exceeded 文件最大深度超过最大值请选择其他源数据或减少数据深度。 400 ModelArts.5309 Only allow edge service published to AIHub

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
使用kv-cache-int8量化 - AI开发平台ModelArts

如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-token动态量化场景如需使用该场景量化方法，推理前向会自动计算kv-cache量化系数，并进行kv的量化。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。图1 购买ECS 创建镜像组织。在SWR服务页面创建镜像组织。图2 创建镜像组织安装Docker。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作

总条数： 693

上一页
1
...
29
30
31
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

查询资源规格列表 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线