搜索_华为云

Lite Cluster资源配置流程 - AI开发平台ModelArts

netes基础知识、网络知识、存储和镜像知识。配置流程图1 Lite Cluster资源配置流程图表1 Cluster资源配置流程配置顺序配置任务场景说明 1 配置Lite Cluster网络购买资源池后，需要弹性公网IP并进行网络配置，配置网络后可通过公网访问集群资源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误联网下载SimSun.ttf时可能会遇到网络问题在运行finetune_ds.sh 时遇到报错父主题： Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

rts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

用户使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配。原因分析实例连接错误，可能是配置文件写的不规范导致连接到别的实例。解决方案检查用户.ssh配置文件（路径一般在“C:\Users\{User}\.ssh\config”下），检查每组配置文件是否

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误联网下载SimSun.ttf时可能会遇到网络问题在运行finetune_ds.sh 时遇到报错父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

NPU RoCE网络 NPU RoCE网络上行速率 ma_container_npu_roce_tx_rate_bytes_per_second 容器所使用的NPU网络模块上行速率字节/秒（Bytes/Second） ≥0 NA NA NA NPU RoCE网络下行速率 ma_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
MoXing进阶用法的样例代码 - AI开发平台ModelArts

可以参考本章节使用MoXing Framework的一些进阶用法。读取完毕后将文件关闭当读取OBS文件时，实际调用的是HTTP连接读取网络流，注意要记得在读取完毕后将文件关闭。为了防止忘记文件关闭操作，推荐使用with语句，在with语句退出时会自动调用mox.file.File对象的close()方法：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
配置Lite Server存储 - AI开发平台ModelArts

存放的是二进制数据，无法直接存放文件，如果需要存放文件，需要先格式化文件系统后使用。访问方式在BMS中通过网络协议挂载使用，支持NFS和CIFS的网络协议。需要指定网络地址进行访问，也可以将网络地址映射为本地目录后进行访问。可以通过互联网或专线访问。需要指定桶地址进行访问，使用的是HTTP和HTTPS等传输协议。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

Keras引擎？开发环境中的Notebook支持。训练作业和模型部署（即推理）暂时不支持。 Keras是一个用Python编写的高级神经网络API，它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。如何查看Keras版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
查询OS的配置参数 - AI开发平台ModelArts

表2 响应Body参数参数参数类型描述 networkCidrs Array of strings 网络配置项。 networkQuota Integer 用户可创建网络个数配额。 poolQuota Integer 用户可创建资源池个数配额。 pooHighAvailable

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建Standard专属资源池 - AI开发平台ModelArts

指定可用区：自定义选择控制节点的可用区。网络 MA网络指定资源池运行的网络，可以与该网络中的其他云服务资源实例互通。仅物理资源池需要设置网络。在下拉框中选择，如果没有可用网络，单击右侧的“创建”，创建一个可用的网络。创建网络相关可以参考步骤一：创建网络章节。 IPv6网络开启IPv6功能。如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
使用PyCharm手动连接Notebook - AI开发平台ModelArts

创建并保存的密钥对文件。单击将连接重命名，可以自定义一个便于识别的名字，单击OK。配置完成后，单击Test Connection测试连通性。选择Yes，显示Successfully connected表示网络可以连通，单击OK。在最下方再单击OK保存配置。图2 配置SSH

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

对于使用ModelArts专属资源池的用户，在控制台创建完网络后，在网络列表页“操作 > 更多”下拉框中可见“关联sfsturbo”和“解除关联”。其中，“关联sfsturbo”用于将此网络与某个选定的SFS Turbo资源做关联操作，关联完成后，表示SFS Turbo与网络已进行打通，可在训练和开发环境等功能时使用此SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

重复打印日志“INFO:root:Listing OBS”。原因分析复制数据慢的可能原因如下：直接从OBS上读数据会造成读数据变成训练的瓶颈，导致迭代缓慢。由于环境或网络问题，读OBS时遇到读取数据失败情况，从而导致整个作业失败。重复打印日志，该日志表示正在读取远端存在的文件，当文件列表读取完成以后，开始

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
查询OS的配额 - AI开发平台ModelArts

查询OS的配额功能介绍获取ModelArts OS服务中部分资源的配额，如资源池配额、网络配额等。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1

帮助中心 > AI开发平台ModelArts > API参考 > 配额管理
Standard资源池功能介绍 - AI开发平台ModelArts

专属资源池为用户提供独立的计算集群、网络，不同用户间的专属资源池物理隔离，公共资源池仅提供逻辑隔离，专属资源池的隔离性、安全性要高于公共资源池。专属资源池用户资源独享，在资源充足的情况下，作业是不会排队的；而公共资源池使用共享资源，在任何时候都有可能排队。专属资源池支持打通用户的网络，在该专属资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo间网络直通，以及配置ModelArts网络关联SFS Turbo。如果ModelArts网络关联SFS Turbo失败，则需要授权ModelArts云服务使用SFS Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
Lite Cluster&Server介绍 - AI开发平台ModelArts

ModelArts Lite基于软硬件深度结合、垂直优化，构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群，提供一站式开通、网络互联、高性能存储、集群管理等能力，满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
Lite Server资源开通 - AI开发平台ModelArts

该参数与所选规格有关，如果未选中规格或规格不支持RoCE网络，则不显示。如果规格支持RoCE网络但未创建过，单击“新建RoCE网络”即可完成创建。如果规格支持RoCE网络且已创建过RoCE网络，直接选择已有RoCE网络即可（不支持重复创建）。安全组安全组是一个逻辑上的分组，为同一个

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
查看诊断报告 - AI开发平台ModelArts

Retransmission Analysis 单次通信重传将会耗时4秒以上，会导致较严重的通信性能劣化，这类问题通常是由于节点网络配置错误导致，可以联系服务方如华为云技术支持排查网络配置。图23 通信重传分析父主题：基于advisor的昇腾训练性能自助调优指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导

总条数： 550

上一页
1
2
3
4
5
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster资源配置流程 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

查询OS的配置参数 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

使用PyCharm手动连接Notebook - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

查询OS的配额 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线