搜索_华为云

如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

可通过如下方式进行调整优化。优化原理对于ModelArts提供的GPU资源池，每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录，“/cache”目录下的数据生命周期与训练作业生命周期相同，当训练作业运行结束以后“/cac

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

详细指导文档：《ModelArts SDK参考》 OBS SDK OBS服务提供的SDK，对OBS进行操作。由于ModelArts较多功能需使用OBS中存储的数据，用户可使用OBS SDK进行调用，使用OBS存储您的数据。 OBS提供了多种语言SDK供选择，开发者可根据使用习惯下载OBS SDK进行调用。使用OBS

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
数据管理计费项 - AI开发平台ModelArts

创建桶不收取费用，按实际使用的存储容量和时长收费计费示例以下案例中出现的费用价格仅供参考，实际价格请参见各服务价格详情。示例：存储费用假设用户于2023年4月1日10:00:00创建了一个数据集，数据是存储在OBS中的。按照存储费用结算，那么数据存储到OBS的费用计算如下：存储

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
Finetune训练 - AI开发平台ModelArts

false tpu_use_sudo: false use_cpu: false 启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_finetune.sh 所有数据保存在auto_log/avg_step_time.txt文本中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
Finetune训练 - AI开发平台ModelArts

false tpu_use_sudo: false use_cpu: false 启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_finetune.sh 所有数据保存在auto_log/avg_step_time.txt文本中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下，尝试选用更小的容器规格或自定义规格，进行服务部署；如果

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
LoRA微调训练 - AI开发平台ModelArts

动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图2 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

参数和tokenizer文件，具体请参见训练tokenizer文件说明。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图2 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

续费。统一包年/包月资源的到期日如果您持有多台到期日不同的专属资源池，可以将到期日统一设置到一个日期，便于日常管理和续费。图2展示了用户将两个不同时间到期的资源，同时续费一个月，并设置“统一到期日”后的效果对比。图2 统一到期日更多关于统一到期日的规则请参见如何设置统一到期日。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

is_processing=False) 创建训练作业时，可通过环境变量“MOX_FILE_PARTIAL_MAXIMUM_SIZE”设置用户需要分段下载的大文件阈值（单位为Bytes），超过该阈值的文件将使用并发下载模式进行分段下载。建议与总结在创建训练作业前，推荐您先使用

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
SFT全参微调训练 - AI开发平台ModelArts

动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图3 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
InternVL2基于DevServer适配PyTorch NPU训练微调指导（6.3.908） - AI开发平台ModelArts

不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
无法导入模块 - AI开发平台ModelArts

module_file.py 训练作业导入模块时日志出现“ImportError: No module named xxx”的报错，可以判断是环境中没有包含用户依赖的python包。处理方法训练作业导入模块时日志出现前两条报错信息，处理方法如下：首先保证被导入的module中有“__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

constructor: Failed to find any matching files for xxx://xxx 原因分析在ModelArts中，用户的数据都是存放在OBS桶中，而训练作业运行在容器中，无法通过访问本地路径的方式访问OBS桶中的文件。处理方法读取文件报错，您可以使用M

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
预置物体检测模式 - AI开发平台ModelArts

选择“Headers”设置请求头部，“Content-Type”的值设为“multipart/form-data”，“X-Auth-Token”的值设为用户实际获取的token值。图1 设置请求头部选择“Body”设置请求体，“key”选择为“images”，选择为“File”类型，接着通

 帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 模型模板 > 输入输出模式说明
SFT全参微调训练 - AI开发平台ModelArts

要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图3 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
使用ModelArts Standard专属资源池进行单机单卡训练 - AI开发平台ModelArts

create --name pytorch --clone base pip install conda-pack #将pytorch env打包生成pytorch.tar.gz conda pack -n pytorch -o pytorch.tar.gz 将打包好的压缩包传到本地： #

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard专属资源池训练模型
模型模板简介 - AI开发平台ModelArts

模板”，固定使用预置图像处理模式。通用模板，搭载特定的AI引擎以及运行环境，内置的输入输出模式为未定义模式，即不定义具体的输入输出格式，用户需根据模型功能或业务场景重新选择新的输入输出模式来覆盖内置的未定义模式，如图像分类模型应选择预置图像处理模式，而目标检测模型则应选择预置物体检测模式。

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 模型模板
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

无法执行相关GPU命令，只能尝试释放D+进程。处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图2 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）

总条数： 1712

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

数据管理计费项 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

InternVL2基于DevServer适配PyTorch NPU训练微调指导（6.3.908） - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

预置物体检测模式 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

使用ModelArts Standard专属资源池进行单机单卡训练 - AI开发平台ModelArts

模型模板简介 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线