搜索_华为云

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件问题现象使用自定义镜像创建训练作业，出现如下报错，提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。文件会直接下载用户本地，需要再上传至SFS Turbo中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

Python：指本地使用Python对本地文件的操作接口。支持一键切换为对应的MoXing文件操作接口（mox.file）。 mox.file：指MoXing框架中用于文件操作的接口，其与python接口一一对应关系。 tf.gfile：指MoXing文件操作接口一一对应的TensorFl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

选择OBS桶中训练code文件夹所在路径，例如“obs://test-modelarts/code/”。启动文件选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
数据管理（旧版） - AI开发平台ModelArts

查询团队标注的样本信息查询数据集标签列表创建数据集标签批量修改标签批量删除标签按标签名称更新单个标签按标签名称删除标签及仅包含此标签的文件批量更新样本标签查询数据集的团队标注任务列表创建团队标注任务查询团队标注任务详情启动团队标注任务更新团队标注任务删除团队标注任务

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime is found分析，是cuda runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

驱动版本与底层驱动不兼容当对自定义镜像的驱动进行升级时，请确定底层驱动是否兼容。当前支持哪种驱动版本，请从基础镜像中获取。文件权限不足该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件： RUN if id -u ma-user > /dev/null

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
管理AI Gallery中的AI应用 - AI开发平台ModelArts

当AI应用的“可见范围”是“私密”时，才支持修改环境变量、可见范围或删除AI应用。管理AI应用环境变量 AI应用支持增删改查环境变量，配置好的环境变量可以在运行文件中直接调用。在AI应用详情页，选择“设置”页签。在“环境变量管理”处，可以查看、新增、修改、删除环境变量。最多支持创建100个环境变

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
设置无条件自动重启 - AI开发平台ModelArts

都会自动重启训练作业，提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。为了避免丢失训练进度、浪费算力，开启此功能前请确认代码已适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
获取API授权关系列表 - AI开发平台ModelArts

app_type String APP类型。枚举值如下： APIC：该APP注册在roma connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “RuntimeError:max_pool2d_wit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

体步骤请参考创建资源池。资源规格要求：硬盘空间：至少200GB。昇腾资源规格：可以申请Ascend: 1* ascend-snt9b(32GB)或Ascend: 1* ascend-snt9b(64GB)规格。请按需选择需要的规格，64GB规格的推理耗时更短。推荐使用“西南-贵阳一”Region上的昇腾资源。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决？ - AI开发平台ModelArts

C:/Users/xx /test.pem: No such file or directory”如何解决？问题现象原因分析密钥文件不存在于该路径下，或者该路径下密钥文件名被修改。解决方法重新选择密钥路径。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

代码中ModelLink、MindSpeed已升级到最新版本，Python三方依赖版本已升级，其中： MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 训练支持的模型列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

代码中ModelLink、MindSpeed已升级到最新版本，Python三方依赖版本已升级，其中： MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 训练支持的模型列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
附录：大模型推理常见问题 - AI开发平台ModelArts

max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
Standard开发环境 - AI开发平台ModelArts

非常多的可选规格，用户可以独占一个容器环境，不受其他人的干扰。只需简单配置，用户即可通过本地IDE连接到该环境进行运行和调试。图1 本地IDE远程访问Notebook开发环境 Notebook可以视作是本地PC的延伸，均视作本地开发环境，其读取数据、训练、保存文件等操作与常规的本地训练一致。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

该指标用于统计ModelArts用户服务的CPU使用率。单位：百分比。 ≥ 0% ModelArts模型负载 1分钟 mem_usage 内存使用率该指标用于统计ModelArts用户服务的内存使用率。单位：百分比。 ≥ 0% ModelArts模型负载 1分钟 gpu_util GPU使用率该指标用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务

总条数： 970

上一页
1
...
24
25
26
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

数据管理（旧版） - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

获取API授权关系列表 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线