搜索_华为云

查看日志和性能 - AI开发平台ModelArts

训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs 查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs 查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
附录：部署常见问题 - AI开发平台ModelArts

memSize}“，其中memSize为要设置的共享内存大小，如2g。 --shm-size 2g \ 如何解决MindIE服务已退出情况下显存依然占用的问题问题：服务退出显存未完全释放解决方法：重启机器。 MindIE和vLLM在深度思考返回接口差异对于DeepSeek-

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_VISIBLE_DEV

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

中创建文件夹用于存放数据。本文档也以将运行代码存放OBS为例，请参考创建OBS桶，例如桶名：standard-qwen-14b。并在该桶下创建文件夹目录用于后续存储代码使用，例如：code。创建的OBS桶和开通的Standard资源必须在同一个Region。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

中创建文件夹用于存放数据。本文档也以将运行代码存放OBS为例，请参考创建OBS桶，例如桶名：standard-qwen-14b。并在该桶下创建文件夹目录用于后续存储代码使用，例如：code。创建的OBS桶和开通的Standard资源必须在同一个Region。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

中创建文件夹用于存放数据。本文档也以将运行代码存放OBS为例，请参考创建OBS桶，例如桶名：standard-qwen-14b。并在该桶下创建文件夹目录用于后续存储代码使用，例如：code。创建的OBS桶和开通的Standard资源必须在同一个Region。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
SFT全参微调训练任务 - AI开发平台ModelArts

Llama2-70b为例，多台机器执行训练启动命令如下。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。多机执行命令为：sh scripts/llama2/0_pl_sft_70b.sh <MASTER_ADDR=xx.xx.xx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
启动/停止/删除实例 - AI开发平台ModelArts

态的Notebook可以执行停止操作。 Notebook停止后： “/home/ma-user/work”目录以及动态挂载在“/data”下的目录下的数据会保存，其余目录下内容会被清理。例如：用户在开发环境中的其他目录下安装的外部依赖包等，在Notebook停止后会被清理。您可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
训练tokenizer文件说明 - AI开发平台ModelArts

oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/SimSun.ttf ，放到模型权重目录Qwen-VL-Chat下。 # 然后将tokenization_qwen.py中30-35行注释，并重新定义变量FONT_PATH读取字体文件Simsun，修改如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
查看日志和性能 - AI开发平台ModelArts

训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs 查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
Standard自动学习 - AI开发平台ModelArts

提供“自动学习白盒化”能力，开放模型参数、自动生成模型，实现模板化开发，提高开发效率采用自动深度学习技术，通过迁移学习（只通过少量数据生成高质量的模型），多维度下的模型架构自动设计（神经网络搜索和自适应模型调优），和更快、更准的训练参数自动调优自动训练采用自动机器学习技术，基于信息熵上限近似模型的树

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

务，和具体的AI引擎解耦，在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。 MoXing Framework模块提供了OBS中常见的数据文件操作，如读写、列举、创建文件夹、查询、移动、复制、删除等。在ModelArts

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
Notebook提示磁盘空间已满 - AI开发平台ModelArts

--max-depth 0 执行如下命令，排查回收站占用内存（回收站文件默认在/home/ma-user/work/.Trash-1000/files下）。 cd /home/ma-user/work/.Trash-1000/ du -ah 根据实际删除回收站不需要的大文件。（注：请谨慎操作，文件删除后不可恢复）

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
我的Gallery介绍 - AI开发平台ModelArts

的算法。取消订阅后，ModelArts管理控制台算法管理模块-我的订阅列表中将不再展示该算法。已取消订阅的算法可以找回订阅，并在原配额约束下可以继续使用该算法。我的资产 > 模型展示个人发布和订阅的模型列表，包括ModelArts模型和HiLens技能。 “我的发布”：可以查

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
预训练任务 - AI开发平台ModelArts

为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。 # 多机执行命令为：sh scripts/llama2/0_pl_pretrain_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
预训练任务 - AI开发平台ModelArts

为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。 # 多机执行命令为：sh scripts/llama2/0_pl_pretrain_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

com/service/contact.html。报错500 Notebook JupyterLab页面无法打开，报错500，可能是工作目录work下的磁盘空间满了，请参考Notebook提示磁盘空间已满排查并清理磁盘空间。报错This site can't be reached 创建完

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
管理AI Gallery镜像 - AI开发平台ModelArts

下架镜像 AI Gallery中已上架的资产支持下架操作。在AI Gallery首页，选择右上角“我的Gallery”。在“我的资产”下，查看已上架的资产。单击资产名称，进入资产详情页。在资产详情页，单击“下架”，在弹窗中单击“确定”。即可将资产下架。删除镜像当资产不使用时，支持删除，释放AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
获取智能任务的信息 - AI开发平台ModelArts

String 难例筛选任务ID。 task_status String 任务状态。 time Long 执行时间。 update_at Long 更新时间。表15 SampleLabels 参数参数类型描述 labels Array of SampleLabel objects 样

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1065

上一页
1
...
38
39
40
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

Standard自动学习 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

我的Gallery介绍 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

管理AI Gallery镜像 - AI开发平台ModelArts

获取智能任务的信息 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线