搜索_华为云

W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

时降低首token时延和增量推理时延。约束限制支持SmoothQuant（W8A8）量化的模型列表请参见支持的模型列表。激活量化支持动态per-token和静态per-tensor，支持非对称量化。权重量化支持per-channel，支持非对称量化。 Deepseek-v

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Lite Cluster资源池提供了扩缩容功能，用户可以根据需求动态调整资源。缩容操作可能影响到正在运行的业务，建议用户在业务空窗期进行缩容，或进入资源池详情页面，在指定空闲的节点上进行删除来实现缩容。约束限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
扩缩容Standard专属资源池 - AI开发平台ModelArts

对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Standard专属资源池提供了扩缩容功能，用户可以根据自己的需求动态调整。使用扩容功能时，可以增加资源池已有规格的实例数量。使用缩容功能时，可以减少资源池已有规格的实例数量。缩容操作可能影响到正在运行

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
开发环境管理 - AI开发平台ModelArts

查询运行中的Notebook可用时长 Notebook时长续约启动Notebook实例停止Notebook实例获取动态挂载OBS实例信息列表动态挂载OBS 获取动态挂载OBS实例详情动态卸载OBS 添加资源标签删除资源标签查询Notebook资源类型下的标签查询支持的镜像列表注册自定义镜像

 帮助中心 > AI开发平台ModelArts > API参考
Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与输入语音匹配的视频，俗称“对口型”。该技术的主要作用就是在将音频与图片、音频与视频进行合成时，口型能够自然。方案概览

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
管理Notebook实例 - AI开发平台ModelArts

管理Notebook实例查找Notebook实例更新Notebook实例启动/停止/删除实例保存Notebook实例动态扩充云硬盘EVS容量动态挂载OBS并行文件系统查看Notebook实例事件 Notebook Cache盘告警上报父主题：使用Notebook进行AI开发调试

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
配置Lite Server网络 - AI开发平台ModelArts

一个网卡只能绑定一个弹性公网IP。单个弹性公网IP用于多个Server服务器所有Server资源必须位于同一个VPC，并且该VPC没有NAT网关以及默认路由。购买弹性公网IP。登录华为云管理控制台。在左侧服务列表中，单击“网络 > 弹性公网IP EIP”，进入弹性公网IP页面。单击“购买弹性公网IP”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理业务迁移评估表 - AI开发平台ModelArts

++开发2000行代码。4个中等复杂度算子，基于C++开发，平均每个自定义算子约500行代码。 - 动态shape 是否需要支持动态shape。例如：需要动态Shape，需要动态Shape的模型有ResNet-50、YOLOv5。 - 参数类型（FP32/FP16） FP32还是FP16混合，判断精度调优难度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

++开发2000行代码。4个中等复杂度算子，基于C++开发，平均每个自定义算子约500行代码。 - 动态shape 是否需要支持动态shape。例如：需要动态Shape，需要动态Shape的模型有ResNet-50、YOLOv5。 - 参数类型（FP32/FP16） FP32还是FP16混合，判断精度调优难度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

PTA_TORCHAIR_DECODE_GEAR_ENABLE=1 # 开启动态分档功能 export PTA_TORCHAIR_DECODE_GEAR_LIST=2,4,6,8,16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

总条数： 248

上一页
1
2
3
4
5
...
13
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

W8A8量化 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

开发环境管理 - AI开发平台ModelArts

Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

管理Notebook实例 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线