搜索_华为云

训练作业进程被kill - AI开发平台ModelArts

在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

ModelArts部署时通过物理区域划分，为项目级服务。授权时，“授权范围”需要选择“指定区域项目资源”，然后在指定区域（如华北-北京1）对应的项目（cn-north-1）中设置相关权限，并且该权限仅对此项目生效；如果“授权范围”选择“所有资源”，则该权限在所有区域项目中都生效。访问ModelArts时，需要先切换至授权区域。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
自定义模型规范 - AI开发平台ModelArts

模型存放路径，AI Gallery的模型仓库地址，包含模型仓库的所有文件。 “/home/ma-user/.cache/gallery/model/ur12345--gpt2” ENV_AG_DATASET_DIR 数据集存放路径，AI Gallery的数据集仓库地址，包含数据集仓库的所有文件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
查询训练作业列表 - AI开发平台ModelArts

per_page 否 Integer 指定每一页展示作业的总量，默认为10，“per_page”可选的范围为[1，1000]。 page 否 Integer 指定要查询页的索引，默认为1。“page”可选的范围为[1，65535]。 sortBy 否 String 指定查询的排序方式，默认是作业

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
创建开发环境实例 - AI开发平台ModelArts

true表示开启，则会在运行时长到达之后自动停止实例，false表示关闭，默认为false。 duration 否 Integer 运行时长，单位为秒，取值范围为3600-86400，该参数配置之后，每次启动均有效。如果enable为true时，该参数是必须的。 prompt 否 Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
免费体验MaaS预置服务 - AI开发平台ModelArts

置灰。在业务环境中调用模型服务的API进行推理。在预置服务列表，选择所需的服务，单击操作列的“更多 > 调用”，在调用弹窗中获取API地址和调用示例，在业务环境中调用API进行体验。操作指导请参见调用MaaS部署的模型服务。预置服务默认启用内容审核，且调用页面不显示该参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

--max-cpu-loras=32 参数说明如下： --enable-lora表示开启lora挂载。 --lora-modules后面添加挂载的lora列表，要求lora地址权重是Huggingface格式，当前支持QKV-proj、O-proj、gate_up_proj、down_proj模块的挂载。发请求时

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

912版本是第一次发布。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址框架 1 Qwen-VL 7b https://huggingface.co/Qwen/Qwen-VL-Chat DeepSpeed 操作流程

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
推理场景介绍 - AI开发平台ModelArts

具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
训练作业运行失败排查指导 - AI开发平台ModelArts

')”。原因：Moxing在进行文件复制时，未找到train_data_obs目录。处理建议：修改train_data_obs目录为正确地址，重新启动训练作业。另外在Moxing下载OBS对象过程中，不要删除相应OBS目录下的对象，否则Moxing在下载到被删除的对象时会下载失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号在所选规格范围内，但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况，导致实际能检测到的卡少于所选规格。处理方法建议直接根据系统分卡情

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
创建团队标注验收任务 - AI开发平台ModelArts

sampling_num 否 Integer 验收任务的抽样数目，与抽样比例二选一。 sampling_rate 否 Double 验收任务的抽样比例，取值范围为(0,1]，与抽样数目二选一。响应参数状态码： 200 表3 响应Body参数参数参数类型描述 task_id String 异步验收任务ID。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询数据集导入任务的详情 - AI开发平台ModelArts

input String 表格数据集，HDFS路径。例如/datasets/demo。 ip String 用户GaussDB(DWS)集群的IP地址。 port String 用户GaussDB(DWS)集群的端口。 queue_name String 表格数据集，DLI队列名。 subnet_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

例如“torch-1.8.1%2Bcu111-cp37-cp37m-linux_x86_64.whl”。下载Miniconda3安装文件。使用地址https://repo.anaconda.com/miniconda/Miniconda3-py37_4.12.0-Linux-x86_64

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
资源池监控 - AI开发平台ModelArts

String 系统生成的资源池名称。表2 Query参数参数是否必选参数类型描述 time_range 否 String 查询时间范围，默认值“-1.-1.60”。格式为startTimeInMillis.endTimeInMillis.durationInMinutes，参数解释：

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建自动模型优化的训练作业 - AI开发平台ModelArts

达式。设置自动化搜索参数从已设置的“超参”中选择可用于搜索优化的超参。优化的超参仅支持float类型，选中自动化搜索参数后，需设置取值范围。搜索算法配置 ModelArts内置三种超参搜索算法，用户可以根据实际情况选择对应的算法，支持多选。对应的算法和参数解析请参考以下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
【下线公告】华为云ModelArts服务模型转换下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告华为云ModelArts服务模型转换在2024年4月30日 00:00(北京时间)正式下线。下线范围下线区域：华为云全部Region 下线影响正式下线后，用户将无法再使用模型转换的功能，包括创建和删除模型转换任务、查询模型转换任务列表和详情功能。

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

例如“torch-1.8.1%2Bcu111-cp37-cp37m-linux_x86_64.whl”。下载Miniconda3安装文件。使用地址https://repo.anaconda.com/miniconda/Miniconda3-py37_4.12.0-Linux-x86_64

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
训练作业进程异常退出 - AI开发平台ModelArts

在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 817

上一页
1
...
30
31
32
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业进程被kill - AI开发平台ModelArts

IAM - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

创建团队标注验收任务 - AI开发平台ModelArts

查询数据集导入任务的详情 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线