搜索_华为云

使用SmoothQuant量化 - AI开发平台ModelArts

--generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

镜像保存本质是通过在资源集群节点上的agent中进行了docker commit，再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销，层数越多镜像越大，如果多次保存后就会有存储显示没那么大，但是镜像已经很大。镜像超大会导致加载的各种问题，所以这里做了限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
使用SmoothQuant量化 - AI开发平台ModelArts

--generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

worker会被调度到相同的机器上。由于训练数据对于ps没有用，因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在使

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
创建资源池失败 - AI开发平台ModelArts

Cluster”页面。您可以通过单击“购买AI专属集群”右侧的“操作记录”，查看当前处于失败状态的资源池信息。图1 创建失败资源池信息鼠标悬停在“状态”列的上，即可看到该操作失败的具体原因。失败的记录默认按照操作的申请时间排序，最多显示500条并保留3天。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
批量更新样本标签 - AI开发平台ModelArts

8：图像的饱和度与训练数据集的特征分布存在较大偏移。 9：图像的色彩丰富程度与训练数据集的特征分布存在较大偏移。 10：图像的清晰度与训练数据集的特征分布存在较大偏移。 11：图像的目标框数量与训练数据集的特征分布存在较大偏移。 12：图像中目标框的面积标准差与训练数据集的特征分布存在较大偏移。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用SmoothQuant量化 - AI开发平台ModelArts

--generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
管理Workflow工作流 - AI开发平台ModelArts

进入某条运行中的工作流，单击右上角的“停止”按钮，出现停止Workflow询问弹窗，单击确定。只有处于“运行中”状态的工作流，才会出现“停止”按钮。停止Workflow后，关联的训练作业和在线服务也会停止。复制Workflow 某条工作流，目前只能存在一个正在运行的实例，如果用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

被中断。在正常情况下，nvidia-smi进程通常只会短暂地出现D+状态，因为它们是由内核控制的，该进程处于等待I/O操作完成的状态，可能是在读取或写入GPU相关的数据，这是正常的操作。但是，如果该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询节点列表 - AI开发平台ModelArts

nvidia.com/gpu String GPU节点的GPU资源量。 huawei.com/ascend-snt3 String 昇腾节点的NPU资源量。 huawei.com/ascend-snt9 String 昇腾节点的NPU资源量。状态码：404 表10 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
推理精度测试 - AI开发平台ModelArts

evaluation_accuracy.xlsx # 测试的评分结果，包含各个学科数据集的评分和总和评分。 ├── infer_info │ ├── xxx1.csv # 单个数据集的评测结果 │ ├── ...... │ ├── xxxn.csv # 单个数据集的评测结果 ├── summary_result

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
数据管理计费项 - AI开发平台ModelArts

建了一个数据集，数据是存储在OBS中的。按照存储费用结算，那么数据存储到OBS的费用计算如下：存储费用：数据管理模块的数据通过对象存储服务（OBS）上传或导出，存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。综上，数据管理的费用 = 存储费用父主题：计费项

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
服务预测失败 - AI开发平台ModelArts

在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XXXX类型的报错，表示请求在APIG（API网关）出现问题而被拦截。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

image, retry later”，同时在“日志”页签中，无任何信息。图1 部署在线服务异常解决方法出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：精简模型，重新导入模型和部署上线。购买专属资源池，在部署上线为在线服务时，使用专属资源池进行部署。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
请求超时返回Timeout - AI开发平台ModelArts

优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次预测的时间不能超过40S，超过后系统会默认返回Timeout错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
动态扩充云硬盘EVS容量 - AI开发平台ModelArts

Notebook实例的存储配置采用的是云硬盘EVS。图1 创建Notebook实例时选择云硬盘EVS存储单次最大可以扩容100GB，扩容后的总容量不超过4096GB。云硬盘EVS存储容量最大支持4096GB，达到4096GB时，不允许再扩容。实例停止后，扩容后的容量仍然有效。计

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例

总条数： 2620

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化 - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

创建资源池失败 - AI开发平台ModelArts

批量更新样本标签 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

管理Workflow工作流 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

查询节点列表 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

数据管理计费项 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

动态扩充云硬盘EVS容量 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线