搜索_华为云

准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

import os import moxing as mox TMP_CACHE_PATH = '/cache/data' mox.file.copy_parallel('FLAGS.data_url', TMP_CACHE_PATH) zip_data_path = os.path

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
编排Workflow - AI开发平台ModelArts

description="是否进行数据清洗, 数据格式异常会导致训练失败，建议开启，保证训练稳定性。数据量过大时，数据清洗可能耗时较久，可自行线下清洗（支持BMP.JPEG,PNG格式, RGB三通道）。建议用JPEG格式数据")), wf.AlgorithmParam

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
创建AI应用失败，如何定位和处理问题？ - AI开发平台ModelArts

exec format error”。这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看AI应用详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题： AI应用管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Error 802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.servcie不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
无法导入模块 - AI开发平台ModelArts

path”中，再导入： import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录，即project_dir的绝对路径 current_path = os.path.dirname(__file__)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
自动学习和订阅算法有什么区别？ - AI开发平台ModelArts

自动学习和订阅算法有什么区别？针对不同目标群体，ModelArts提供不同的AI开发方式。如果您是新手，推荐您使用自动学习实现零代码模型开发。当您使用自动学习，系统会自动选择适合的算法和适合的参数进行模型训练。如果您是AI开发进阶者，通过订阅算法进行模型训练有更多算法上的选择，并且您可以自定义训练所需的参数。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 功能咨询
执行LoRA微调训练任务 - AI开发平台ModelArts

手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。由于模型中LoRA微调训练存在已知的精度问题，因此不支持TP(tensor model parallel size)张量模型并行策略，推荐使用PP(pipeline model parallel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
执行LoRA微调训练任务 - AI开发平台ModelArts

手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。由于模型中LoRA微调训练存在已知的精度问题，因此不支持TP(tensor model parallel size)张量模型并行策略，推荐使用PP(pipeline model parallel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
重置节点后无法正常使用？ - AI开发平台ModelArts

原因分析在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行节点准入，而因为集群volcano没有污点容忍，且集群内只有一个节点，导致vocalno无法启动，进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动，使得污点无法被自动清理。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
自定义python包中如果引用model目录下的文件，文件路径怎么写 - AI开发平台ModelArts

的文件，文件路径怎么写如果容器中的文件实际路径不清楚，可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）也可在搜索引擎寻找

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
自定义脚本代码示例 - AI开发平台ModelArts

not os.path.exists(work_directory): os.mkdir(work_directory) filepath = os.path.join(work_directory, filename) if not os.path

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建AI应用规范参考
pipeline代码适配 - AI开发平台ModelArts

ayml/onnx_models" os.environ['DEVICE_ID'] = "0" os.environ['TEXT_ENCODER_PATH'] = f"{mindir_dir}/text_encoder.mindir" os.environ['VAE_ENCODER_PATH']

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
导入模型时，模型配置文件中的安装包依赖参数如何编写？ - AI开发平台ModelArts

9-cp37-cp37m-manylinux1_x86_64.whl" } ] } ] 模型配置文件的“dependencies”支持多个“dependency”结构数组以list形式填入。示例如下： "dependencies": [ { "installer":

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
训练作业的自定义镜像如何安装Moxing？ - AI开发平台ModelArts

ser/modelarts/package/”目录下。可在使用Moxing功能前执行如下代码，进行Moxing的安装。 import os os.system("pip install /home/ma-user/modelarts/package/moxing_framework-*

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

Initialize the distributed environment. """ os.environ['MASTER_ADDR'] = '127.0.0.1' os.environ['MASTER_PORT'] = '29500' dist.init

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
infiniband驱动的安装 - AI开发平台ModelArts

进入地址，单击“Download”，选择“Archive Versions”，“Version”选择“4.3-1.0.1.0”，“OS Distribution”选择“Ubuntu”，“OS Distribution Version”选择“Ubuntu 16.04”，“Architecture”选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
复制数据至容器中空间不足 - AI开发平台ModelArts

的资源，“/cache”与代码目录共用10G，会造成内存不足，请更改为使用GPU资源。请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache') 父主题：硬盘限制故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
附录：微调训练常见问题 - AI开发平台ModelArts

问题3：训练过程报错：ImportError: XXX not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /hom

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

─────────────────────────────────────────────────────────────────╯ 具体支持如下使用场景：下载单个文件下载多个文件下载文件到指定路径下载单个AI Gallery仓库准备工作获取“repo_id”和待下载的文件名。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南

总条数： 1615

上一页
1
...
75
76
77
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备权重 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

创建AI应用失败，如何定位和处理问题？ - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

自动学习和订阅算法有什么区别？ - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

自定义python包中如果引用model目录下的文件，文件路径怎么写 - AI开发平台ModelArts

自定义脚本代码示例 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

导入模型时，模型配置文件中的安装包依赖参数如何编写？ - AI开发平台ModelArts

训练作业的自定义镜像如何安装Moxing？ - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线