搜索_华为云

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

Code在重连环境，无弹窗报错。左下角显示如下图：查看VS Code Remote-SSH日志发现，连接在大约2小时后断开了：原因分析用户SSH交互操作停止后一段时间，防火墙对空闲链接进行了断开操作，SSH默认配置中不存在超时主动断连的动作，但是防火墙会关闭超时空闲连接（参考：http://bluebiu

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

Code在重连环境，无弹窗报错。左下角显示如下图：查看VS Code Remote-SSH日志发现，连接在大约2小时后断开了：原因分析用户SSH交互操作停止后一段时间，防火墙对空闲链接进行了断开操作，SSH默认配置中不存在超时主动断连的动作，但是防火墙会关闭超时空闲连接（参考：http://bluebiu

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
显存溢出错误 - AI开发平台ModelArts

解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-paralle

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-paralle

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-paralle

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-paralle

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
Lite Cluster资源配置流程 - AI开发平台ModelArts

节点管理绑定弹性公网IP。若已有未绑定的弹性公网IP，直接选择即可。如果没有可用的弹性公网IP，需要先购买弹性公网IP。图3 弹性公网IP 单击“购买弹性公网IP”，进入购买页。图4 绑定弹性公网IP 图5 购买弹性公网IP 图6 未绑定的弹性公网IP 完成购买后，返回弹性云服务器页面，刷新列表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

检测等能力。安全防护套件覆盖和使用堡垒机，增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用，采用了统一推荐的Web安全组件防

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。约束与限制使用客户端上传镜像，镜像的每个layer大小不能大于10G。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
查询Notebook实例详情 - AI开发平台ModelArts

3：配置网络 4：初始化实例 step_description String 任务某个步骤的描述。表4 EndpointsRes 参数参数类型描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练前卡死 - AI开发平台ModelArts

environ["NCCL_DEBUG"] = "INFO"，查看NCCL DEBUG信息。问题现象1 日志中还未出现NCCL DEBUG信息时已卡死。解决方案1 检查代码，检查是否有参数中未传入“master_ip”和“rank”参数等问题。问题现象2 分布式训练的日志中，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
Lite Server资源开通 - AI开发平台ModelArts

若当前网络配置的子网、规格、镜像都支持IPv6，则会显示该参数，打开后可启用IPv6功能。请确保您的子网已开启IPv6功能，若未开启请参考为虚拟私有云创建新的子网。不同规格、镜像对IPv6支持的情况不同，若不支持则不会显示IPv6网络参数，请以控制台实际显示为准。 RoCE网络当前使用A系列G

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
如何使用API接口获取订阅算法的订阅id和版本id？ - AI开发平台ModelArts

如何使用API接口获取订阅算法的订阅id和版本id？调用API接口使用“我的订阅”方式创建训练作业时，请求参数需要填写算法的订阅id（algorithm.subscription_id）和版本id（algorithm.item_version_id）。可调用如下接口获取相关信息，如下以北京四为例：

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
为什么在ModelArts数据标注平台标注数据提示标注保存失败？ - AI开发平台ModelArts

单击network查看请求列表，请求状态显示为(failed)net::ERR_ADDRESS_IN_USE。原因分析可能是用户本地网络的原因，网速不稳定或者网络配置有问题，均可能导致保存失败。解决方案 1. 切换为稳定的网络后重试。 2. 初始化网络配置，使用管理员权限启动CMD，输入netsh

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
在Linux上安装配置Grafana - AI开发平台ModelArts

tu，建议选择22.04版本，本地存储100G），具体操作请参考《弹性云服务器快速入门》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。操作步骤将本地命令复制至ECS服务器请参考如下方法：在ECS桌面单击“复制粘贴”，使用快

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理

总条数： 1559

上一页
1
...
5
6
7
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

训练前卡死 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

如何使用API接口获取订阅算法的订阅id和版本id？ - AI开发平台ModelArts

为什么在ModelArts数据标注平台标注数据提示标注保存失败？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线