搜索_华为云

在Workflow中更新已部署的服务 - AI开发平台ModelArts

在Workflow中更新已部署的服务场景介绍大部分场景下的工作流都是第一次运行部署新服务，后续进行模型迭代时，需要对已部署的服务进行更新。因此需要在同一条工作流中，同时支持服务的部署及更新能力。编写工作流基于编写工作流代码示例的场景案例进行改造，代码编写示例如下： from

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” 问题现象预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
训练环境中不同规格资源“/cache”目录的大小 - AI开发平台ModelArts

训练环境中不同规格资源“/cache”目录的大小在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路问题现象创建训练作业界面没有云存储名称和挂载路径这两个选项。原因分析用户的专属资源池没有进行网络打通，或者用户没有创建过SFS。处理方法在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS VPC。详情页面的“NAS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
发布和管理AI Gallery中的AI应用 - AI开发平台ModelArts

发布和管理AI Gallery中的AI应用发布本地AI应用到AI Gallery 将AI Gallery中的模型部署为AI应用管理AI Gallery中的AI应用父主题： AI Gallery（新版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

训练作业中如何判断文件夹是否复制完毕？您可以在训练作业启动文件的脚本中，通过如下方式获取复制和被复制文件夹大小，根据结果判断是否复制完毕： import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
训练作业一直在等待中（排队）？ - AI开发平台ModelArts

训练作业一直在等待中（排队）？训练作业状态一直在等待中状态表示当前所选的资源池规格资源紧张，作业需要进行排队，请耐心等待。如想降低排队时间，根据您所选资源池的类型，有以下建议：公共资源池：公共资源池资源较少，高峰期如举办相关活动时会存在资源不足情况。有以下方法可以尝试：如

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

在ECS中创建ma-user和ma-group 在ModelArts训练平台使用的自定义镜像时，默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件，需要修改文件权限改为ma-user可读，否则会出现Permission denied错误，因此需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

创建镜像组织在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令 Step5 获取训练镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
开发环境中不同Notebook规格资源“/cache”目录的大小 - AI开发平台ModelArts

开发环境中不同Notebook规格资源“/cache”目录的大小创建Notebook时，可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。映射

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

创建镜像组织在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令 Step5 获取训练镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

基于Socket.IO），地址栏中填入从服务详情页“调用指南”页签中获取“API接口调用公网地址”后面的地址。如果自定义镜像中有更细粒度的地址，则在地址后面追加该URL。如果有queryString，那么在params栏中添加参数。在header中添加认证信息（不同认证方式有不同

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
服务预测失败 - AI开发平台ModelArts

服务预测失败问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XX

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

基于Socket.IO），地址栏中填入从服务详情页“调用指南”页签中获取“API接口调用公网地址”后面的地址。如果自定义镜像中有更细粒度的地址，则在地址后面追加该URL。如果有queryString，那么在params栏中添加参数。在header中添加认证信息（不同认证方式有不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
配置Grafana数据源 - AI开发平台ModelArts

实例列表”，在实例列表中单击“Prometheus_AOM_Default”实例。图2 Prometheus_AOM_Default 从“设置”页签的“Grafana数据源配置信息”区域，获取当前Prometheus实例的Grafana数据源配置代码。在Grafana中增加数据源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

训练作业运行成功之后，在训练作业列表中，您可以单击作业名称，查看该作业的详情。在“日志”页签搜索输入输出参数名称获取参数信息。如果需在训练中获取“train_url”、“data_url”和“test”参数的值，可在训练作业的启动文件中添加以下代码获取： import argparse

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

然后使用DataArts执行此脚本的任务时提示没有这个库。原因分析客户创建了多个虚拟环境，numba库安装在了python-3.7.10中，如图1所示。图1 查询创建的虚拟环境解决方案在Terminal中执行conda deactivate命令退出当前虚拟环境，默认进入base环境。执行pip list命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？当数据集存在较多数据文件（即海量小文件），数据存储在OBS中，训练过程需反复从OBS中读取文件，导致训练过程一直在等待文件读取，效率低。解决方法建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据

总条数： 1940

上一页
1
...
8
9
10
...
97
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Workflow中更新已部署的服务 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

训练环境中不同规格资源“/cache”目录的大小 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

发布和管理AI Gallery中的AI应用 - AI开发平台ModelArts

训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

训练作业一直在等待中（排队）？ - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

开发环境中不同Notebook规格资源“/cache”目录的大小 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线