搜索_华为云

查看日志和性能 - AI开发平台ModelArts

output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

子类异常中文描述检测方法处理建议 NT_NPU_DEVICE NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
创建Notebook实例 - AI开发平台ModelArts

码路径，方便临时修改。训练观测。可以将训练日志等输出路径进行挂载，在Notebook中实时查看和观测，特别是利用TensorBoard可视化功能完成对训练输出的分析。 PFS是一种经过优化的高性能对象存储文件系统，存储成本低，吞吐量大，能够快速处理高性能计算（HPC）工作负载。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

或者您需要管理用户操作OBS的操作权限，可以创建自定义策略。更多关于创建自定义策略操作和参数说明请参见创建自定义策略。目前华为云支持可视化视图创建自定义策略和JSON视图创建自定义策略，本章节将使用JSON视图方式的策略，以为ModelArts用户授予开发环境的使用权限并且配

 帮助中心 > AI开发平台ModelArts > 常见问题 > 权限相关
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

或者您需要管理用户操作OBS的操作权限，可以创建自定义策略。更多关于创建自定义策略操作和参数说明请参见创建自定义策略。目前华为云支持可视化视图创建自定义策略和JSON视图创建自定义策略，本章节将使用JSON视图方式的策略，以为ModelArts用户授予开发环境的使用权限并且配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > FAQ
从OBS目录导入数据规范说明 - AI开发平台ModelArts

<filename>bike_1_1593531469339.png</filename> <source> <database>Unknown</database> </source> <size> <width>554</width>

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
什么是ModelArts - AI开发平台ModelArts

适用于已经自建AI开发平台，仅有算力需求的用户。要求用户具备k8s基础知识和技能。 ModelArts Edge 为客户提供了统一边缘部署和管理能力，支持统一纳管异构边缘设备，提供模型部署、Al应用和节点管理、资源池与负载均衡、应用商用保障等能力，帮助客户快速构建高性价比的边云协同AI解决方案。适用于边缘部署场景。

帮助中心 > AI开发平台ModelArts > 产品介绍
给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

权限”，单击右上角的“创建自定义策略”，设置策略。 “策略名称”：设置自定义策略名称，例如：ma_agency_obs。 “策略配置方式”：选择可视化视图或者JSON视图均可。 “策略内容”：填入如下内容。 { "Version": "1.1", "Statement":

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

针对调试中遇到的错误，可以直接在容器实例里修改，修改结果可以通过commit命令持久化。上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
部署推理服务 - AI开发平台ModelArts

ion上的Server和昇腾Snt9b资源。确保容器可以访问公网。 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
demo.sh方式启动（历史版本） - AI开发平台ModelArts

demo.sh方式启动（历史版本）本章节介绍历史版本的训练任务启动方式。6.3.912版本同时兼容历史版本的训练任务启动方式。步骤一：上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
部署推理服务 - AI开发平台ModelArts

安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

工具检查正常后，进行固件和驱动安装。固件和驱动安装时，注意安装顺序：首次安装场景：硬件设备刚出厂时未安装驱动，或者硬件设备前期安装过驱动固件但是当前已卸载，上述场景属于首次安装场景，需按照“驱动->固件”的顺序安装驱动固件。覆盖安装场景：硬件设备前期安装过驱动固件且未卸载，当前要再次安装驱动固件，此场景属

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
查看日志和性能 - AI开发平台ModelArts

看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

如果系统预置的ModelArts权限不满足您的授权要求，或者您需要管理用户更细一步的操作权限，比如操作OBS的操作权限，可以创建自定义策略。目前IAM支持可视化视图创建自定义策略和JSON视图创建自定义策略，本章节将使用JSON视图方式的策略，以为ModelArts用户授予开发环境的使用权限并且配

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
查看日志和性能 - AI开发平台ModelArts

看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
Lite Server部署推理服务 - AI开发平台ModelArts

Lite Server部署推理服务前提条件已经完成资源购买。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

总条数： 311

上一页
1
...
6
7
8
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

从OBS目录导入数据规范说明 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

demo.sh方式启动（历史版本） - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

Lite Server部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线