搜索_华为云

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

rts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在ModelArts中公共资源池和专属资源池的区别是什么？ - AI开发平台ModelArts

候，可能造成资源紧张而产生排队。专属池是专属于您的资源池，不会因为资源紧张而产生排队，同时专属资源池支持打通自己的VPC，能和自己的资源网络互通。父主题： Standard专属资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

说明查询事件列表查询事件列表。表17 网络管理 API 说明创建网络资源创建网络资源。查询网络资源列表查询网络资源列表。查询网络资源查询指定网络资源的详情信息。删除网络资源删除指定网络资源。更新网络资源更新指定网络资源。表18 资源指标管理 API 说明

 帮助中心 > AI开发平台ModelArts > API参考
创建在线服务包 - AI开发平台ModelArts

_id}/workflows{workflow_id}/service/packages { "pool_id" : "pool-9ad2-04f258c84780d5a52f3bc00dc15aa5e7", "order" : { "id" : "CS2210201956MBE5Z"

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

of <moxing.framework.file.src.obs.client.ObsClient object at 0x7fddb4ad06d0>> args=('bucket-cv-competition-bj4', 'fangjiemin/output/') kwargs={}

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
VS Code ToolKit连接Notebook - AI开发平台ModelArts

安装完成后，系统右下角提示安装完成，导航左侧出现ModelArts图标和SSH远程连接图标，表示VS Code插件安装完成。图3 安装完成提示图4 安装完成当前网络不佳时SSH远程连接插件可能未安装成功，此时无需操作，在Step4 连接Notebook实例的1之后，会弹出如下图对话框，单击Install

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

Keras引擎？开发环境中的Notebook支持。训练作业和模型部署（即推理）暂时不支持。 Keras是一个用Python编写的高级神经网络API，它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。如何查看Keras版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
查询OS的配置参数 - AI开发平台ModelArts

表2 响应Body参数参数参数类型描述 networkCidrs Array of strings 网络配置项。 networkQuota Integer 用户可创建网络个数配额。 poolQuota Integer 用户可创建资源池个数配额。 pooHighAvailable

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

对于使用ModelArts专属资源池的用户，在控制台创建完网络后，在网络列表页“操作 > 更多”下拉框中可见“关联sfsturbo”和“解除关联”。其中，“关联sfsturbo”用于将此网络与某个选定的SFS Turbo资源做关联操作，关联完成后，表示SFS Turbo与网络已进行打通，可在训练和开发环境等功能时使用此SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

ModelArts全球基础设施围绕华为云区域和可用区构建。华为云区域提供多个在物理上独立且隔离的可用区，这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
团队标注审核 - AI开发平台ModelArts

团队标注审核。设置是否通过为“true”，评审分数为“A”。 { "comments" : [ { "worker_id" : "8c15ad080d3eabad14037b4eb00d6a6f", "sample_id" : "0d43f9811d3808a3146c673257d4a1dbhh"

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询OS的配额 - AI开发平台ModelArts

查询OS的配额功能介绍获取ModelArts OS服务中部分资源的配额，如资源池配额、网络配额等。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1

帮助中心 > AI开发平台ModelArts > API参考 > 配额管理
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

重复打印日志“INFO:root:Listing OBS”。原因分析复制数据慢的可能原因如下：直接从OBS上读数据会造成读数据变成训练的瓶颈，导致迭代缓慢。由于环境或网络问题，读OBS时遇到读取数据失败情况，从而导致整个作业失败。重复打印日志，该日志表示正在读取远端存在的文件，当文件列表读取完成以后，开始

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Lite Cluster&Server介绍 - AI开发平台ModelArts

ModelArts Lite基于软硬件深度结合、垂直优化，构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群，提供一站式开通、网络互联、高性能存储、集群管理等能力，满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
准备镜像环境 - AI开发平台ModelArts

检查环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备镜像环境 - AI开发平台ModelArts

检查环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
版本说明和要求 - AI开发平台ModelArts

Snt9B。请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
服务预测失败 - AI开发平台ModelArts

问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XXXX类型的报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 541

上一页
1
2
3
4
5
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

在ModelArts中公共资源池和专属资源池的区别是什么？ - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

创建在线服务包 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

查询OS的配置参数 - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

团队标注审核 - AI开发平台ModelArts

查询OS的配额 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线