搜索_华为云

SFT全参微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
模型推理代码编写说明 - AI开发平台ModelArts

_postprocess(self, data) 后处理方法，在推理请求完成后调用，用于将模型输出转换为API接口输出。用户可以选择重写preprocess和postprocess方法，以实现API输入数据的预处理和推理输出结果的后处理。重写模型父类的初始化方法init可能导致模型“运行异常”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

在导入模型时，提示单个模型文件大小超过5G限制。原因分析在不使用动态加载的情况下，系统对单个模型文件的限制大小为5G，超过时无法进行导入。处理方法精简模型文件后，重新导入。使用动态加载功能进行导入。图1 使用动态加载父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
无法导入模块 - AI开发平台ModelArts

rror: No module named xxx”的报错，可以判断是环境中没有包含用户依赖的python包。处理方法训练作业导入模块时日志出现前两条报错信息，处理方法如下：首先保证被导入的module中有“__init__.py”存在，创建“module_dir”的“__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查询Notebook实例列表 - AI开发平台ModelArts

uri String 实例私有IP地址。表7 Image 参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询所有Notebook实例列表 - AI开发平台ModelArts

uri String 实例私有IP地址。表7 Image 参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

computation. 原因分析分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。处理方法请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

业状态由“创建中”转变为“异常”，训练作业详情界面“规格信息”为“--”。原因分析调用接口传入了CPU规格的专属资源池不支持的参数。处理步骤检查API请求的请求体中是否存在“flavor_id”参数，CPU规格的专属资源池不支持使用“flavor_id”参数。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
Step1 创建用户组并加入用户 - AI开发平台ModelArts

Step1 创建用户组并加入用户主用户账号下面可以创建多个子账号，并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。主用户登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入IAM服务。图1 统一身份认证创建用户组。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
使用MaaS调优模型 - AI开发平台ModelArts

创建调优任务时设置的“节点个数”。吞吐吞吐表示每秒每卡处理的Tokens数量，吞吐值的上下限可以参考表6获取。单位：tokens/s/p 前后处理时间调优时长还包括训练前的数据预处理、训练后格式转换等调优之外的耗时，统称为前后处理时间。调优任务的前后处理时间和模型参数量相关，不同参数量的时间估值如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
执行训练任务（推荐） - AI开发平台ModelArts

ath、model_name_or_path根据实际要求选择，示例如下。输入数据集参数：是否使用已处理好数据集；是，设置以下超参 processed_data_dir:已处理好数据路径目录否，使用原始数据集，设置以下超参 dataset：训练时指定的输入原始数据集路径。输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 工作负载Pod异常 > 执行训练任务
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。例如您的模型是Pytorch框架，部署为在线服务时出现告警：ModuleNotFoundError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

导入模型账号欠费导致被冻结；导入模型账号没有对应工作空间的权限；导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；处理方法确认是账号欠费冻结，补交对应欠费，等待账号解冻即可；如果是导入模型没有对应的工作权限，可以参考创建自定义策略对相应账号赋予导入模型相关权限。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

通过OBS导入模型时，ModelArts会将指定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下，镜像内路径可以通过self.model_path获取。处理方法获取镜像内的路径方法见模型推理代码编写说明。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

slice(None, None, None))' is an invalid key 原因分析出现该问题的可能原因如下：切分数据时，选择的数据不对。处理方法尝试如下代码： X = dataset.iloc[:,:-1].values 建议与总结在创建训练作业前，推荐您先使用ModelA

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
执行训练任务【新】 - AI开发平台ModelArts

【必修改】训练时指定的输入数据路径。请根据实际规划修改。用户根据训练情况二选一； processed_data_dir /home/ma-user/ws/xxx 已处理好数据路径目录，如有处理完成数据可设置此参数 scirpts_dir /home/ma-user/ws/llm_train/AscendFactory/scripts_modellink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
训练作业找不到GPU - AI开发平台ModelArts

no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES']

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK

总条数： 626

上一页
1
...
23
24
25
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调训练 - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

查询Notebook实例列表 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线