搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
预测API的域名停用公告 - AI开发平台ModelArts

影响区域：华为云全部Region 停用影响新建服务、存量服务停止后再启动、存量服务失败后再启动，会立即切换使用新域名。为保障持续提供推理服务，请您及时更新业务中的预测API的域名。如果您使用的是VPC内部节点访问ModelArts推理的在线服务，预测API切换域名后，由于内网VPC无法识别公网域名

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
如何关闭Mox的warmup - AI开发平台ModelArts

Tensorflow分布式有多种执行模式，mox会通过4次执行50 step记录执行时间，选择执行时间最少的模型。处理方法创建训练作业时，在“运行参数”中增加参数“variable_update=parameter_server”来关闭Mox的warmup。父主题： MoXing

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

- 当前使用的操作系统及版本当前推理业务的操作系统及版本，如：Ubuntu 22.04。是否使用容器化运行业务，以及容器中OS版本，HostOS中是否有业务软件以及HostOS的类型和版本。需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本当前引擎（TF/PT

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

response from daemon: Cannot pause container xxx”。原因分析执行镜像保存时，Notebook中存在状态为D的进程，会导致镜像保存失败。解决方案在Terminal里执行ps -aux命令检查进程。执行kill -9 <pid>命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

进入“专属资源池”页面，单击目标资源池“操作”列的“更多 > 设置作业类型”。在“设置作业类型”页面，勾选“开发环境”，单击“确定”。此时“开发环境”的状态为“环境初始化中”，等到状态为“已启用”，即可使用新购买的专属资源池。父主题：其他故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例方法二（远端）：在VS Code的Terminal中删除“/home/ma-user/.vscode-server/bin/”下正在使用的文件，然后重新进行连接。 ssh -tt -o Str

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例方法二（远端）：在VS Code的Terminal中删除“/home/ma-user/.vscode-server/bin/”下正在使用的文件，然后重新进行连接。 ssh -tt -o Str

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

用本服务API需要project级别的Token，即调用获取用户Token接口时，请求body中“auth.scope”的取值需要选择“project”，请求示例如下所示。在构造请求中以调用获取用户Token接口为例说明了如何调用API。 { "auth": { "identity":

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
创建数据集 - AI开发平台ModelArts

ContentInfo参数参数是否必选参数类型描述 content_id 是 String AI Gallery中数据集资产的ID。 version_id 是 String AI Gallery中数据集资产的版本ID。表4 AnnotationConfig参数参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
创建ModelArts数据清洗任务 - AI开发平台ModelArts

参数说明 prototype_sample_path 是 None 数据清洗正样例目录。目录应存放正样例图片文件，算法将这些图片为正样例，对输入中的数据进行过滤，即保留与“prototype_sample_path”目录下图片相似度高的数据。请输入一个真实存在的OBS目录，且目录下已

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

find /home/ma-user/anaconda3 -name modelarts.pth 执行如下命令删除用户使用的python环境中的modelarts.pth文件。 # /xxx/modelarts.pth 指用户通过第一步查出来的文件路径 rm -rf /xxx/modelarts

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
引言 - AI开发平台ModelArts
引言 - AI开发平台ModelArts

oss层面引入误差；再者，模型本身的算法设计过程也可能会引入不收敛情况；最后，则是不符合预期的计算或者通信导致的模型收敛问题。在迁移流程中，一般已经有模型训练的标杆，因此主要关注昇腾软件栈引入的精度偏差即可。由于昇腾芯片和GPU芯片的架构差异（包括不同架构下的GPU芯片），收到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

总条数： 2151

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

预测API的域名停用公告 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

创建ModelArts数据清洗任务 - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

引言 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线