搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

部署上线部署服务时，需要注意为服务设置合适计算节点规格，防止服务因资源不足而过载或者资源过大而浪费。尽量避免在容器中监听其他端口，有本地内部需要访问的其他端口，监听在localhost上。避免通过环境变量传递敏感信息，需要通过加密组件进行加密后再通过环境变量配置。部署在线服务，当

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
部署推理服务 - AI开发平台ModelArts

上传权重文件中上传的模型权重路径。 --tensor-parallel-size：并行卡数。 --host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？问题现象解决方法检查VS Code版本是否为1.78.2或更高版本，如果是，请查看Remote-SSH版本，如果低于v0.76.1，请升级Remote-SSH。打开命令面板（Windows：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
AI Gallery简介 - AI开发平台ModelArts

Gallery的“数据”中，可以查找并下载满足业务需要的数据集。也可以将自己本地的数据集发布至AI Gallery中，共享给其他用户使用。 “资产集市 > 算法”：共享了算法。 AI Gallery的算法模块支持算法的共享和订阅。在AI Gallery的“算法”中，可以查找您想要的算法，订阅满

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

${chat_template_path} \ --dtype ${dtype} \ --host=${docker_ip} \ --port=${port} \ --gpu-memory-utilization=0.9 \ --trust-remote-code 多模态推理服务启动模板参数说明如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？问题现象原因分析通过查看日志发现本地vscode-scp-done.flag显示成功上传，但远端未接收到。解决方法关闭VS Code所有窗口

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决？ - AI开发平台ModelArts

invalid format”如何解决？问题现象原因分析密钥文件内容不正确或格式不正确。解决方法请使用正确的密钥文件进行远程访问，如果本地没有正确的密钥文件或文件已损坏，可以尝试：登录控制台，搜索“数据加密服务 DEW”，选择“密钥对管理 > 账号密钥对”页签，查看并下载正确的密钥文件。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

北-北京四站点。不支持跨站点访问OBS桶。具体请参见查看OBS桶与ModelArts是否在同一个区域。请确认操作Notebook的账号有权限读取OBS桶中的数据。如没有权限，请参见在ModelArts的Notebook中，如何访问其他账号的OBS桶？。父主题： Standard

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在推理生产环境中部署推理服务 - AI开发平台ModelArts

${chat_template_path} \ --dtype ${dtype} \ --host=${docker_ip} \ --port=${port} \ --gpu-memory-utilization=0.9 \ --trust-remote-code 多模态推理服务启动模板参数说明如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？不是同一个主账号，用户A需要使用用户B的自定义镜像创建Notebook，此时需要用户B将此镜像共享给用户A，用户A将此共享镜像Pull下来注册后方可在Notebook中使用。详细操作如下：用户B的操作：登录容

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用，采用了统一推荐的Web安全组件防范Web安全风险，并且通过WAF进行安全防护。所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台CSP。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？用户可通过shell命令或python命令查询GPU使用信息。使用shell命令执行nvidia-smi命令。依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
VS Code ToolKit连接Notebook - AI开发平台ModelArts

too open”如何解决？报错“ssh: connect to host ModelArts-xxx port xxx: Connection timed out”如何解决？报错“Host key verification failed.'或者'Port forwarding

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

置为128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。 --tru

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
部署在线服务 - AI开发平台ModelArts

String 安全组，默认为空，当配置了vpc_id则此参数必填。安全组起着虚拟防火墙的作用，为服务实例提供安全的网络访问控制策略。安全组须包含至少一条入方向规则，对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 configs 是包括predictor configs结构和transformer

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
FlUX.1基于DevServer适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

}/ComfyUI python main.py --port ${port} --force-fp16 --listen ${container_ip_address} 参数说明： port：为启动镜像时映射port container_ip_address：为容器IP，如上图的172

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？问题现象当kernelgateway进程被结束后，出现如下报错，以及选不到Kernel。图1 报错Server Connection Error截图图2 选不到Kernel

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
欠费说明 - AI开发平台ModelArts
欠费说明 - AI开发平台ModelArts

欠费原因已购买资源包，但使用量超出资源包额度或资源包属性与桶属性不匹配，进而产生按需费用，同时账户中的余额不足以抵扣产生的按需费用。请参考如何查看ModelArts中正在收费的作业？识别产生按需计费的原因，并重新选择正确的资源包或保证账户中的余额充足。未购买资源包，在按需计费模式下账户的余额不足。

帮助中心 > AI开发平台ModelArts > 计费说明
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法问题现象 ModelArts如何安装自定义库函数，例如“apex”。 ModelArts训练环境安装第三方包时出现如下报错： xxx.whl is not a supported wheel on this platform 原因分析由于安装的文件名格式不支持，导致出现“xxx

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 1529

上一页
1
...
8
9
10
...
77
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决？ - AI开发平台ModelArts

如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

FlUX.1基于DevServer适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

欠费说明 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线