搜索_华为云

推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时，请参考以下步骤进行基础排查。网络链路检查在ModelArts控制台查看Notebook实例状态是否正常，确保实例无问题。在VS Code Terminal里执行如下命令检测SSH命令是否可用； ssh

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备图像分类数据 - AI开发平台ModelArts

│ 12.txt 只支持JPG、JPEG、PNG、BMP格式的图片。在OBS管理控制台上传时，单张图片的大小不能超过5MB，单次上传的图片总大小不能超过8MB，数据量大时推荐使用OBS Browser+上传。标签名是由中文、大小写字母、数字、中划线或下划线组成，且不超过32位的字符串。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

由于请求的实体过大，服务器无法处理，因此拒绝请求。为防止客户端的连续请求，服务器可能会关闭连接。如果只是服务器暂时无法处理，则会包含一个Retry-After的响应信息。 414 Request-URI Too Large 请求的URI过长（URI通常为网址），服务器无法处理。 415 Unsupported

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
修复Standard专属资源池故障节点 - AI开发平台ModelArts

的资源，状态会变为“失败”。可将鼠标悬浮在图标上，查看具体失败原因。每天累计替换的次数不超过资源池节点总数的20%，同时替换的节点数不超过资源池节点总数的5%。替换节点时需确保有空闲节点资源，否则替换可能失败。当操作记录里有节点处于重置中时，该资源池无法进行替换节点操作。高可用冗余节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
云上迁移适配故障 - AI开发平台ModelArts

云上迁移适配故障无法导入模块训练作业日志中提示“No module named .*” 如何安装第三方包，安装报错的处理方法下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
其他故障 - AI开发平台ModelArts
其他故障 - AI开发平台ModelArts

其他故障 Notebook中无法打开“checkpoints”文件夹创建新版Notebook无法使用已购买的专属资源池，如何解决？在Notebook中使用tensorboard命令打开日志文件报错Permission denied 父主题：开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
订阅算法物体检测YOLOv3 - AI开发平台ModelArts

订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot be found 问题现象使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 进行训练作业，训练失败报错label_map.pbtxt cannot be

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
创建资源池失败 - AI开发平台ModelArts

Cluster”页面。您可以通过单击“购买AI专属集群”右侧的“操作记录”，查看当前处于失败状态的资源池信息。图1 创建失败资源池信息鼠标悬停在“状态”列的上，即可看到该操作失败的具体原因。失败的记录默认按照操作的申请时间排序，最多显示500条并保留3天。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
实例故障 - AI开发平台ModelArts
实例故障 - AI开发平台ModelArts

实例故障创建Notebook失败，查看事件显示JupyterProcessKilled 创建Notebook实例后无法打开页面，如何处理？使用pip install时出现“没有空间”的错误出现“save error”错误，可以运行代码，但是无法保存出现ModelArts.6333错误，如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
分布式训练功能介绍 - AI开发平台ModelArts

Hub中打开了可用的案例，会自动跳转到CodeLab中，此时是可以使用这项功能的。如果切换了Notebook的规格，那么只能在Notebook进行单机调测，不能进行分布式调测，也不能提交远程训练作业。当前仅支持PyTorch和MindSpore AI框架，如果MindSpore要进行多机分布式训练调试，则每台机器上都必须有8张卡。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
下载代码目录失败 - AI开发平台ModelArts

下载代码目录失败问题现象训练作业运行时下载失败，出现如下报错，请参见图1： ERROR：modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败原因分析在创建训练作业时指定的代码目录不存在导致训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

D+ 结果如下：图1 nvidia D+进程此时可以观察你的训练任务或者执行“nvidia-smi”等命令，几乎是卡顿无法执行，因为内核IO已经阻塞，无法执行相关GPU命令，只能尝试释放D+进程。处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX 请求在APIG（API网关）出现问题被拦截，报错APIG.XXXX。常见报错： APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 965

上一页
1
...
6
7
8
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理精度测试 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

准备图像分类数据 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

其他故障 - AI开发平台ModelArts

订阅算法物体检测YOLOv3 - AI开发平台ModelArts

创建资源池失败 - AI开发平台ModelArts

实例故障 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

下载代码目录失败 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线