搜索_华为云

训练作业如何调用shell脚本，是否可以执行.sh文件？ - AI开发平台ModelArts

训练作业如何调用shell脚本，是否可以执行.sh文件？ ModelArts支持调用shell脚本，可以使用python调用“.sh”。具体操作步骤如下：上传“.sh”脚本至OBS桶，例如“.sh”所在存储位置为 “ /bucket-name/code/test.sh”。在本地创建“

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
部署服务如何选择计算节点规格？ - AI开发平台ModelArts

部署服务如何选择计算节点规格？部署服务时，用户需要指定节点规格进行服务部署，界面目前显示的节点规格是ModelArts根据用户的AI应用和资源池的节点规格计算得到，用户可以选择ModelArts提供的规格，也可以使用自定义规格（公共资源池不支持）。计算节点规格主要是根据用户A

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程自定义容器在ModelArts上训练和本地训练的区别如下图：图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。增加了和OBS交互工作的整个训练流程如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

ModelArts全球基础设施围绕华为云区域和可用区构建。华为云区域提供多个在物理上独立且隔离的可用区，这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ ModelArts会帮用户生成RANK_TABLE_FILE文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
ModelArts支持的监控指标 - AI开发平台ModelArts

send_bytes_rate 上行速率统计ModelArts用户服务的出方向网络流速。单位：bit/min ≥bit/min ModelArts模型负载 1分钟 recv_bytes_rate 下行速率统计ModelArts用户服务的入方向网络流速。 ≥bit/min ModelArts模型负载 1分钟

 帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 云监控平台ModelArts监控
不同机型的对应的软件配套版本 - AI开发平台ModelArts

Standard 集群版本：v1.23|v1.25（推荐）集群规模：50|200|1000|2000 集群网络模式：容器隧道网络|VPC 分布式训练时仅支持容器隧道网络集群转发模式：iptables|ipvs gpu-beta gpu-driver rdma-sriov-dev-plugin

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
在ModelArts上训练模型，输入输出数据如何配置？ - AI开发平台ModelArts

在ModelArts上训练模型，输入输出数据如何配置？ ModelArts支持用户上传自定义算法创建训练作业。上传自定义算法前，请完成算法开发并上传至OBS桶。创建算法请参考使用预置框架创建算法。创建训练作业请参考创建训练作业指导。解析输入路径参数、输出路径参数运行在Mode

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建AI应用，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
打开Notebook实例提示token不存在或者token丢失如何处理？ - AI开发平台ModelArts

打开Notebook实例提示token不存在或者token丢失如何处理？问题现象把已打开的Notebook url发送给他人使用，他人无法打开，报错“……lost token or incorrect token……”。原因分析原因是由于其他人没有此账号的令牌导致。解决方案

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？训练作业参数有两种来源，包括后台自动生成的参数和用户手动输入的参数。具体获取方式如下：创建训练作业时，“输入”支持配置训练的输入参数名称（一般设置为“data_url”），以及输入数据的存储位置，“输出”支持配置训练的输出参数名称（

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

远程连接处于retry状态如何解决？问题现象原因分析之前下载VS Code server失败，有残留信息，导致本次无法下载。解决方法方法一（本地）：打开命令面板（Windows： Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill VS Code

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法问题现象 ModelArts如何安装自定义库函数，例如“apex”。 ModelArts训练环境安装第三方包时出现如下报错： xxx.whl is not a supported wheel on this platform 原因分析由于安装的文件名格式不支持，导致出现“xxx

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用自定义镜像创建在线服务，如何修改默认端口 - AI开发平台ModelArts

使用自定义镜像创建在线服务，如何修改默认端口当模型配置文件中定义了具体的端口号，例如：8443，创建AI应用没有配置端口（默认端口号为8080），或者配置了其他端口号，均会导致服务部署失败。您需要把AI应用中的端口号配置为8443，才能保证服务部署成功。修改默认端口号，具体操作如下：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
专属资源池购买后，中途扩容了一个节点，如何计费？ - AI开发平台ModelArts

专属资源池购买后，中途扩容了一个节点，如何计费？华为云会重新计算一个增加了该节点的账单，付费以后才能使用。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池

总条数： 804

上一页
1
...
12
13
14
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业如何调用shell脚本，是否可以执行.sh文件？ - AI开发平台ModelArts

部署服务如何选择计算节点规格？ - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

ModelArts支持的监控指标 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

在ModelArts上训练模型，输入输出数据如何配置？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

打开Notebook实例提示token不存在或者token丢失如何处理？ - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

使用自定义镜像创建在线服务，如何修改默认端口 - AI开发平台ModelArts

专属资源池购买后，中途扩容了一个节点，如何计费？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线