搜索_华为云

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

根据报错日志分析，模型目录下存在多余文件“/home/mind/model/v0432/cdn_short.pt”。处理方法在模型目录中删除“/home/mind/model/v0432/cdn_short.pt”文件，重新导入模型后进行部署在线服务即可正常预测。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Loss对齐结果 - AI开发平台ModelArts

Loss对齐结果在排查完精度偏差来源之后发现，Loss最大绝对偏差减少为0.0003，Loss结果对齐。需要注意训练引入随机性的目的是为了增加结果的鲁棒性，理论上不会对训练模型的收敛与否造成影响。此处做随机性固定主要的目的是为了训练结果可完全复现，从而实现NPU和标杆的精度对齐。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 案例：Dit模型训练迁移 > 精度对齐
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

d失败。解决方法一方法一：检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud，如果显示如下则网络异常，请切换代理或使用其他网络。操作完成后再次执行搜索，如果显示如下则网络正常，请回到ModelArts控制台界面再次单击界面上的“VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
ModelArts在线服务预测请求体大小限制是多少？ - AI开发平台ModelArts

ModelArts在线服务预测请求体大小限制是多少？服务部署完成且服务处于运行中后，可以往该服务发送推理的请求，请求的内容根据模型的不同可以是文本，图片，语音，视频等内容。当使用调用指南页签中显示的调用地址（华为云APIG网关服务的地址）预测时，对请求体的大小限制是12MB，超过12MB时，请求会被拦截。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
更新网络资源 - AI开发平台ModelArts

描述 phase String 网络的当前状态。可选值如下： Creating：网络创建中 Active：网络正常 Abnormal：网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。表17

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
网络调整公告 - AI开发平台ModelArts

网络调整公告 ModelArts针对网络进行安全加固和优化，新的网络模式可以为用户的资源提供更好的隔离性，提升云上资源的安全。为保障您的网络安全，建议您后续使用新网络创建Standard资源池。表1 上线局点上线局点上线时间华东二 2024年10月29日 20:00 父主题：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
场景介绍及环境准备 - AI开发平台ModelArts

场景介绍及环境准备场景介绍 DiT（Diffusion Transformers）模型是一种将Transformer架构引入扩散模型的新方法。传统的扩散模型通常使用U-Net架构，而DiT模型则用Transformer替代了U-Net，处理图像生成和去噪等任务。核心思想是通过T

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 案例：Dit模型训练迁移
开启超节点HCCL通信算子级重执行机制 - AI开发平台ModelArts

开启超节点HCCL通信算子级重执行机制场景描述针对Snt9B23超节点下光模块故障率高的问题，通过在HCCL通信算子级引入重执行机制，提升系统的稳定性和可靠性。 HCCL（Huawei Collective Communication Library，华为集合通信库）是华为专

 帮助中心 > AI开发平台ModelArts > ModelArts Lite Server用户指南 > Lite Server资源管理
PD分离部署性能调优理论基础 - AI开发平台ModelArts

到端吞吐性能上产生劣化，无法发挥PD分离调度架构的优势。性能评测度量方式度量标准传统的度量方式未引入SLO的要求，造成吞吐好看，但是客户的感知不好。 goodput的引入：满足的SLO要求的吞吐，即TTFT与TPOT均满足要求。 TTFT：Time To First Token（首token生成时间）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

是通过在模型层中引入低秩矩阵，将大模型的权重降维处理，来实现高效的模型适配。相比于传统的微调方法，LoRA不仅能大幅减少所需的训练参数，还降低了显存和计算成本，加快了模型微调速度。对于VLLM来说，使用LoRA进行多任务部署具有以下优势：资源节省：在大模型中引入LoRA，可以减

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

是通过在模型层中引入低秩矩阵，将大模型的权重降维处理，来实现高效的模型适配。相比于传统的微调方法，LoRA不仅能大幅减少所需的训练参数，还降低了显存和计算成本，加快了模型微调速度。对于VLLM来说，使用LoRA进行多任务部署具有以下优势：资源节省：在大模型中引入LoRA，可以减

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用
MoXing Framework功能介绍 - AI开发平台ModelArts

my_dir/') 引入MoXing Framework模块使用MoXing Framework前，您需要在代码的开头先引入MoXing Framework模块。执行如下代码，引入MoXing模块。 1 import moxing as mox 引入MoXing Framework的相关说明

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用Notebook进行AI开发调试 > 在Notebook中使用MoXing命令
管理训练实验 - AI开发平台ModelArts

管理训练实验训练实验当训练作业的数量较多时，可能会遇到难以快速定位作业或不便跟踪的情况。为了便于管理训练作业，我们引入了训练实验的概念，类似于对训练作业进行分组管理。用户可以根据需求将作业归类到不同的训练实验中，实现分类管理。每个训练实验可以包含多个同类型的作业。在管理训练

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业
配置Lite Server网络 - AI开发平台ModelArts

配置Lite Server网络 Server创建后，需要进行网络配置，才可使其与Internet通信，本章节介绍网络配置步骤。网络配置主要分为以下两个场景：单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。单个弹性

 帮助中心 > AI开发平台ModelArts > ModelArts Lite Server用户指南 > Lite Server资源配置
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Optimization)：是一种在强化学习中广泛使用的策略优化算法。它属于策略梯度方法的一种，旨在通过限制新策略和旧策略之间的差异来稳定训练过程。PPO通过引入一个称为“近端策略优化”的技巧来避免过大的策略更新，从而减少了训练过程中的不稳定性和样本复杂性。指令监督式微调(Self-training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？问题现象原因分析可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。解决方法用户重新进行申请SSH权限。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
使用Msprobe工具分析偏差 - AI开发平台ModelArts

size、dtype、device、layout信息的数据，详情请参见PyTorch docs介绍。所以同样是在device侧做变量初始化引入精度偏差，在diffusion/gaussian_diffusion.py中用等CPU侧初始化实现替换完成计算之后再切回device进行计算(下图第731行)。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 案例：Dit模型训练迁移 > 精度对齐
获取自动化搜索作业yaml模板的内容 - AI开发平台ModelArts

获取自动化搜索作业yaml模板的内容功能介绍获取自动化搜索作业yaml模板的内容。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{projec

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
精度问题诊断 - AI开发平台ModelArts

精度问题诊断逐个替换模型，检测有问题的模型该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 案例：SD1.5推理迁移 > 模型精度调优

总条数： 360

上一页
1
2
3
4
5
...
18
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消