搜索_华为云

网卡名称错误 - AI开发平台ModelArts

当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 #

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

源规格；例如在一个modelarts.vm.cpu.2u的Notebook中，部署本地Predictor，其运行环境就是cpu.2u。部署在线服务Predictor，即将存储在OBS中的模型文件部署到线上服务管理模块提供的容器中运行，其环境规格（如CPU规格，GPU规格）由表3

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
团队标注审核 - AI开发平台ModelArts

否 String 评审意见，限制长度为[0,256]，且不能包含!<>=&"'字符。 sample_id 否 String 样本ID，可调用查询样本列表接口获取。 score 否 String 评审分数，当前可取A/B/C/D四个值，从高到低排列。 worker_id 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建APP - AI开发平台ModelArts
创建APP - AI开发平台ModelArts

工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。响应参数状态码：200 表4 响应Body参数参数参数类型描述 app ApigAppDetailInfo object 创建的APP基础信息。表5 ApigAppDetailInfo

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

Found secret key 原因分析这是TensorFlow-1.8中会出现的情况，该日志是Info级别的，并不是错误信息，可以通过设置环境变量来屏蔽INFO级别的日志信息。环境变量的设置一定要在import tensorflow或者import moxing之前。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志提示"write line error" - AI开发平台ModelArts

error”。并且问题是必现问题，每次运行到同一地方的时候，出现错误。原因分析出现该问题的可能原因如下：程序运行过程中，产生了core文件，core文件占满了"/"根目录空间。本地数据、文件保存将"/cache"目录3.5T空间用完了。云上训练磁盘空间一般指如下两个目录的磁盘空间： “/”根目录，是docker中配置项“base

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。抽取kv-cache量化系数。该步骤的目的是将步骤1中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
推理服务精度评测 - AI开发平台ModelArts

enable_lora=True表示开启multi-lora的精度验证。如果不开启multi-lora的精度验证，不体现enable_lora参数即可。 lora_local_path=${lora_local_path}是挂载适配器对应路径，取值和multi-lora特性使用说明中的参数lora1=/path/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明昇腾云服务6.3.904版本发布支持的软件包和能力说明如下，软件包获取路径：Support-E网站。发布包软件包特性说明配套说明备注昇腾云模型代码三方大模型，包名：AscendCloud-3rdLLM PyTorch框架下支持如下模型训练：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

镜像保存本质是通过在资源集群节点上的agent中进行了docker commit，再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销，层数越多镜像越大，如果多次保存后就会有存储显示没那么大，但是镜像已经很大。镜像超大会导致加载的各种问题，所以这里做了限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
添加资源标签 - AI开发平台ModelArts

添加资源标签功能介绍给指定服务添加标签（目前只支持在线服务），当添加的标签key已存在，则覆盖该标签的value。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。抽取kv-cache量化系数。该步骤的目的是将步骤1中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
删除网络资源 - AI开发平台ModelArts

Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件中安装pip依赖包，例如安装Flask依赖包。 # 配置华为云的源，安装 python、python3-pip 和 Flask RUN

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
时序预测-time_series_v2算法部署在线服务预测报错 - AI开发平台ModelArts

than windows。原因分析该报错说明预测使用的数据行数小于window超参值。在使用订阅算法时序预测-time_series_v2训练时，超参：window设置为60。训练完成并创建模型后，部署在线服务，进行预测，当预测的数据行数小于window超参值时，日志中有报错信息：ERROR:

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
训练场景和方案介绍 - AI开发平台ModelArts

908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?so

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化

总条数： 2355

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

网卡名称错误 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

团队标注审核 - AI开发平台ModelArts

创建APP - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

推理服务精度评测 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

添加资源标签 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

时序预测-time_series_v2算法部署在线服务预测报错 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线