搜索_华为云

Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。训练前需要修改数据集路径、模型路径。数据集路径格式为/datasets/pokemon-dataset/image_0

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Step6 推理服务的高阶配置（可选）如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。词表切分在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 ma-cli image命令支持：查询用户已注册的镜像、查询/加载镜像构建模板、Dockerfile镜像构建、查询/清理镜像构建缓存、注册/取消注册镜像、调试镜像是否可以在Notebook中使用等。具体命令及功能可执行ma-cli image

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象在Notebook执行兼容gpu的脚本时报错不兼容，但是通过nvcc --version排查显示是兼容。 import torch import sys print('A'

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

exemlProjectVersion 自动学习项目的版本 workflow Workflow项目 pool 专属资源池 network 专属资源池网络连接 trainJob 训练作业 trainJobLog 训练作业的运行日志 trainJobInnerModel 系统预置模型 model 模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何在Lite Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
查看Notebook实例事件 - AI开发平台ModelArts

查看Notebook实例事件在Notebook的整个生命周期，包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录，用户可以在Notebook实例详情页中查看具体的事件，通过实例的事件，从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件，也

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试，数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen；以及使用lm-eval工具开展语言模型的推理精度测试，数据集包含

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911）
使用SDK调测单机训练作业 - AI开发平台ModelArts

使用SDK调测单机训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改6和10中的framework_type参数值即可，例如：MindSpore框架，此处framework_

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
线下容器镜像构建及调试 - AI开发平台ModelArts

kerfile可追溯及构建归档的需求，也保证镜像内容无冗余和残留。每层构建的时候都尽量把tar包等中间态文件删除，保证最终镜像更小，清理缓存的方法可参考：conda clean。构建参考样例 Dockerfile样例： FROM nvidia/cuda:11.3.1-cudnn8-devel-ubuntu18

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
查询数据集详情 - AI开发平台ModelArts

参数类型描述 add_sample_count Integer 新增样本数量。 analysis_cache_path String 特征分析的缓存路径。 analysis_status Integer 特征分析任务的当前状态。可选值如下： 0：初始化 1：运行中 2：完成 3：失败 analysis_task_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询训练作业列表 - AI开发平台ModelArts

查询训练作业列表示例代码在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

创建Notebook并执行性能诊断任务本文介绍如何创建Notebook并执行性能诊断任务。操作步骤创建Notebook实例。在ModelArts控制台创建一个Notebook实例，选择要使用的AI框架，创建Notebook时可以选择任意镜像。具体参见创建Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
自定义引擎创建模型规范 - AI开发平台ModelArts

BS文件下载到容器中的“/home/mind/model”目录下，最后执行SWR镜像中预置的启动命令。ModelArts平台会在APIG上注册一个预测接口提供给用户使用，用户可以通过平台提供的预测接口访问服务。自定义引擎创建模型的规范使用自定义引擎创建模型，用户的SWR镜像、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
批量添加样本 - AI开发平台ModelArts

标一定小于第二个点的y坐标)。 polygon [[0,100],[50,95],[10,60],[500,400]] 多个点组成，按顺序连接成一个多边形。 circle [[100,100],[50]] 一个圆心点和半径组成。 line [[0,100],[50,95]] 两个

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看模型评估结果 - AI开发平台ModelArts

save_path=FLAGS.train_url) 复制数据集到本地复制数据集到本地主要是为了防止长时间访问OBS容易导致OBS连接中断使得作业卡住，所以一般先将数据复制到本地再进行操作。数据集复制有两种方式，推荐使用OBS路径复制。 OBS路径（推荐）直接使用mo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Msprobe梯度监控 - AI开发平台ModelArts

Msprobe梯度监控梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具，可以实现对训练过程模型每一层梯度信息进行监控，目前支持两种能力：将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导
分离部署推理服务 - AI开发平台ModelArts

已准备好DevServer环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
查看在线服务详情 - AI开发平台ModelArts

默认关闭，在线服务的运行日志仅存放在ModelArts日志系统。启用运行日志输出后，在线服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流，默认缓存7天内的运行日志。如需了解LTS专业日志管理功能，请参见云日志服务。说明： “运行日志输出”开启后，不支持关闭。 LTS服务提供的日志查

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务

总条数： 491

上一页
1
...
19
20
21
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Finetune训练 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

IAM - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

线下容器镜像构建及调试 - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

Msprobe梯度监控 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

查看在线服务详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线