搜索_华为云

训练参数配置说明【旧】 - AI开发平台ModelArts

要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 SN 1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS 10 非必填

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

约束与限制需要申请单个模型大小配额和添加使用节点本地存储缓存的白名单。需要使用自定义引擎Custom，配置动态加载。需要使用专属资源池部署服务。专属资源池磁盘空间需大于1T。操作事项申请扩大模型的大小配额和使用节点本地存储缓存白名单上传模型数据并校验上传对象的一致性创建专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练参数配置说明【旧】 - AI开发平台ModelArts

要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 SN 1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS 10 非必填

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
Yaml配置文件参数配置说明 - AI开发平台ModelArts

过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
管理Standard专属资源池的游离节点 - AI开发平台ModelArts

>节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。续费/开通自动续费/修改自动续费对于包年/包月的节点，在“节点管理”页签中提供了续费、开通自动续费和修改自动续费功能，并支持对多个节点进行批量操作。添加/编辑/删除资源标签

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

>节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。续费/开通自动续费/修改自动续费对于包年/包月的节点，在“节点管理”页签中提供了续费、开通自动续费和修改自动续费功能，并支持对多个节点进行批量操作。添加/编辑/删除资源标签

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
重建、停止或删除训练作业 - AI开发平台ModelArts

重建、停止或删除训练作业另存为算法当您需要修改训练作业的算法时，可以在训练作业详情页面右上角，单击“另存为算法”。在“创建算法”页面中，会自动填充上一次训练作业的算法参数配置，您可以根据业务需求在原来算法配置基础上进行修改。订阅算法不支持另存为算法。重建训练作业当对创

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Yaml配置文件参数配置说明 - AI开发平台ModelArts

过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练脚本说明
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
重试/停止/运行Workflow节点 - AI开发平台ModelArts

当单个节点运行失败时，用户可以通过重试按钮重新执行当前节点，无需重新启动工作流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效。停止单击指定节点查看详情，可以对运行中的节点进行停止操作。继续运行对于单个节点中设

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

如果为风格微调，请准备至少50条风格相似的视频和标签，以利于拟合。修改CogVideo/sat/configs/cogvideox_*.yaml文件如果希望使用 Lora 微调，需要修改cogvideox_<模型参数>_lora 文件，修改参考如下： *** conditioner_config:

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
训练作业运行失败排查指导 - AI开发平台ModelArts

or bucket not found.')”。原因：Moxing在进行文件复制时，未找到train_data_obs目录。处理建议：修改train_data_obs目录为正确地址，重新启动训练作业。另外在Moxing下载OBS对象过程中，不要删除相应OBS目录下的对象，否

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS桶中进行存储、读取。因此，建议您在使用ModelArts之前先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型场景描述本地已有镜像，需要做云上适配，用于ModelArts模型训练。操作步骤参考如下Dockerfile，修改已有镜像，使其符合模型训练的自定义镜像规范。 FROM {已有镜像} USER root # 如果已存在 gid = 100 用户组，则删除

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在线服务预测报错DL.0105 - AI开发平台ModelArts

subscriptable”。原因分析根据报错日志分析，是因为一个float数据被当做对象下标访问了。处理方法将模型推理代码中的x[0][i]修改为x[i]，重新部署服务进行预测。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

module name 'unidecode'” 问题现象从mindspore开源gitee中master分支下载的tacotron2模型，修改配置文件后上传ModelArts准备训练，日志报错提示：No module name 'unidecode'。原因分析 requirements

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 963

上一页
1
...
5
6
7
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练参数配置说明【旧】 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

管理Standard专属资源池的游离节点 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

在线服务预测报错DL.0105 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线