搜索_华为云

重置节点后无法正常使用？ - AI开发平台ModelArts

重置节点后无法正常使用？问题现象当ModelArts Lite的CCE集群在资源池上只有一个节点，且用户设置了volcano为默认调度器时，在ModelArts侧进行重置节点的操作后，节点无法正常使用，节点上的POD会调度失败。原因分析在ModelArts侧进行节点重置后

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

据集正式下线。下线范围下线区域：华北-北京四（其他区域已下线）受影响服务 ModelArts旧版数据集。下线影响正式下线后，所有用户将无法使用旧版数据集。为了避免影响您的业务，建议您在2024/10/30 23:59:59（北京时间）前备份数据或切换至新版数据集。如您

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 - AI开发平台ModelArts

本分类功能正式下线。下线范围下线Region：华为云全部Region。下线影响 ModelArts自动学习-文本分类正式下线后，所有用户将无法使用自动学习的文本分类功能创建项目，但仍可查看历史使用文本分类功能创建的作业。如您有任何问题，可随时通过工单或者服务热线（+86-

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
精度调优总体思路 - AI开发平台ModelArts

PyTorch大模型训练的精度问题的分析、定位可以参考如下思路：大模型训练通常使用多机训练，鉴于多机训练复现问题的成本较高，且影响因子较多，建议用户先减少模型层数，使模型能够单机训练，确认单机训练是否也存在精度问题，若存在，则使用下述手段定位精度问题，使得单机精度达标，然后再恢复层数拉起多机训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

ModelArts训练中不同规格资源“/cache”目录的大小是多少？在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，所以可以正常使用的磁盘大小应该是“cache目录容量

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

image build task timed out”提示，不显示详细的构建日志。处理方法预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。优化模型代码，提高构建模型镜像的编译效率。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查询数据集的统计信息 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 email 否 String 标注团队成员邮箱。 locale

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
计费说明 - AI开发平台ModelArts
计费说明 - AI开发平台ModelArts

ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。 ModelArts服务的计费方式简单、灵活，您既可以选择按实际使用时长计费，也可以选择更经济的

 帮助中心 > AI开发平台ModelArts > 产品介绍
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

使用ma-user用户执行如下命令运行训练脚本。 sh run_lora.sh 所有数据保存在auto_log/avg_step_time.txt文本中 auto_log/log/目录下存放各个shapes的数据。启动SDXL LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
录制Profiling - AI开发平台ModelArts

可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：步骤三启动训练脚本新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数，单机启动举例说明： PROF_ENABLE=1 PROF_SAVE_PATH=/save_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：步骤三：启动训练脚本新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数，单机启动举例说明： DO_PROFILER=1 PROF_SAVE_PATH=/save_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

占用信息等，可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：启动训练脚本新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数，单机启动举例说明： DO_PROFILER=1 PROF_SAVE_PATH=/save_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础上Step3 启动训练脚本新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数，单机启动举例说明： DO_PROFILER=1 PROF_SAVE_PATH=/save_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：步骤三启动训练脚本新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数，单机启动举例说明： DO_PROFILER=1 PROF_SAVE_PATH=/save_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

d_patch/models/falcon2/ 复制config.json文件至加载的权重文件/tokenizer目录下，参考路径上传代码和权重文件到工作环境中的步骤3。 cp -f config.json {work_dir}/tokenizers/falcon-11B/ 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

对Qwen系列模型中的tokenizer 文件，需要修改代码。修改tokenizer目录下面modeling_qwen.py文件的第38和39行，修改后如图3所示。图3 修改Qwen tokenizer文件父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

d_patch/models/falcon2/ 复制config.json文件至加载的权重文件/tokenizer目录下，参考路径上传代码和权重文件到工作环境中的步骤3。 cp -f config.json {work_dir}/tokenizers/falcon-11B/ 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

针对Qwen系列模型中的tokenizer文件，需要修改代码。修改tokenizer目录下面modeling_qwen.py文件的第38和39行，修改后如图3所示。图3 修改Qwen tokenizer文件父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

requirements are installed’ 原因分析出现该问题的可能原因如下：用户/训练系统，将CUDA_VISIBLE_DEVICES传错了，检查CUDA_VISIBLE_DEVICES变量是否正常。用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEV

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
服务预测失败 - AI开发平台ModelArts

请根据构建日志报错信息，定位服务预测失败原因，修改模型推理代码后，重新导入模型进行预测。经典案例：在线服务预测报错MR.0105 出现其他情况，优先检查客户端和外部网络是否有问题。以上方法均未解决问题，请联系系统管理员。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 2459

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

重置节点后无法正常使用？ - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

查询数据集的统计信息 - AI开发平台ModelArts

计费说明 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线