搜索_华为云

常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

方式对效果进行验证。模型精度有问题怎么办？首先考虑通过FP16的方式进行转换和执行，再通过精度诊断工具来进行分析，更进一步可以到华为云官网上提交工单处理。模型转换失败时如何查看日志和定位原因？在模型转换的过程，如果出现模型转换失败，可以参考以下步骤查看日志并定位原因：设置DEBUG日志。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
非分离部署推理服务 - AI开发平台ModelArts

"use_beam_search":true, "best_of":2, "length_penalty":2 }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

"ignore_eos": false, "stream": false }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
Standard资源池节点故障定位 - AI开发平台ModelArts

其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定，存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
分离部署推理服务 - AI开发平台ModelArts

"ignore_eos": false, "stream": false }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

"ignore_eos": false, "stream": false }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
配置Lite Server网络 - AI开发平台ModelArts

公网端口：建议选择区间为20000-30000，保证该端口号不冲突。实例类型：单击“服务器”，选择Server服务器。网卡：选择服务器网卡。。私网端口：端口号22。单击“确定”。父主题： Lite Server资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
创建Standard专属资源池 - AI开发平台ModelArts

0/12~24、192.168.0.0/16~24，子网掩码可选范围8-28。 IPV6：开启IPv6功能后，将自动为子网分配IPv6网段，暂不支持自定义设置IPv6网段，该功能一旦开启，将不能关闭。（如果创建网络时未勾选开启IPv6，也可在创建网络后在操作列单击“更多>启用IPv6”，如图2）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

模型训练中的精度问题。支持精度预检，可扫描训练模型中的所有API进行API复现，给出精度情况的诊断和分析。精度比对，对PyTorch整网API粒度的数据dump、精度比对，进而定位训练场景下的精度问题支持溢出检测功能，判断是否存在输入正常但输出存在溢出的API，从而判断是否为正常溢出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
非分离部署推理服务 - AI开发平台ModelArts

"use_beam_search":true, "best_of":2, "length_penalty":2 }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

"use_beam_search":true, "best_of":2, "length_penalty":2 }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

"ignore_eos": false, "stream": false }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
JupyterLab常用功能介绍 - AI开发平台ModelArts

进入JupyterLab页面后，自动打开Launcher页面，如下图所示。您可以使用开源支持的所有功能，详细操作指导可参见JupyterLab官网文档。图1 JupyterLab主页不同AI引擎的Notebook，打开后Launcher页面呈现的Notebook和Console内

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
Lite Server资源开通 - AI开发平台ModelArts

选择该VPC下的一个子网。 IPv6网络若当前网络配置的子网、规格、镜像都支持IPv6，则会显示该参数，打开后可启用IPv6功能。请确保您的子网已开启IPv6功能，若未开启请参考为虚拟私有云创建新的子网。不同规格、镜像对IPv6支持的情况不同，若不支持则不会显示IPv6网络参数，请以控制台实际显示为准。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

通过容器名称进入容器中。 docker exec -it ${container_name} bash Step4 下载原始模型包从HuggingFace官网下载moondream2模型包到本地，下载地址：https://huggingface.co/vikhyatk/moondream2/tree/2024-03-06。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

unzip AscendCloud-AIGC-6.3.912-*.zip #解压下载模型权重，上传到容器的/home/ma-user目录下，官网下载地址（需登录）。对于Diffusers框架，需要下载huggingface全部文件。 stabilityai/stable-diffusion-3

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
不同机型的对应的软件配套版本 - AI开发平台ModelArts

的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。 IB：InfiniBand (IB) 是一种高性能计算机网络通信协议，专为高性能计算和数据中心互连设计。弹性云服务器的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
LoRA微调训练 - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。多机执行命令为：sh scripts/llama2/0_pl_lora_70b.sh <MASTER_ADDR=xx.xx.xx.xx>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
执行训练任务（历史版本） - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。 # 多机执行命令为：sh scripts_modellink/llama2/0_pl_pretrain_70b.sh <MASTER_ADDR=xx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
LoRA微调训练 - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。多机执行命令为：sh scripts/llama2/0_pl_lora_70b.sh <MASTER_ADDR=xx.xx.xx.xx>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）

总条数： 151

上一页
1
...
4
5
6
7
8
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见问题 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

JupyterLab常用功能介绍 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线