搜索_华为云

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
文档导读 - AI开发平台ModelArts
文档导读 - AI开发平台ModelArts

文档导读本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。章节内容 SDK简介简要介绍ModelArts SDK的概念。快速开始介绍如何使用ModelArts SDK进行二次开发。（可选）本地服务器安装ModelArts

帮助中心 > AI开发平台ModelArts > SDK参考
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.4.2框架部署并启动推理服务。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。处理方法选择

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

n_url”代替算法中数据来源和数据输出所需的路径。在使用预置框架创建算法时，根据1中的代码参数设置定义的输入输出参数。训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”，表示数据输入来源，也支持用户根据1的算法代码自定义代码参数。模型训练结束后

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？如果容器中的文件实际路径不清楚，可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
部署推理服务 - AI开发平台ModelArts

PTA_TORCHAIR_DECODE_GEAR_LIST=2,4,6,8,16,32 # 设置动态分档的挡位，根据实际情况设置，另外请不要设置挡位1 export VLLM_ENGINE_ITERATION_TIMEOUT_S=900 # 设置vllm请求超时时间图模式主要针对小模型的场景，可减少算子下发的瓶颈，目前仅针对Qwen2-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法

总条数： 1948

上一页
1
...
9
10
11
...
98
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

文档导读 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线