搜索_华为云

Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

核IO已经阻塞，无法执行相关GPU命令，只能尝试释放D+进程。处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Arts所有监控指标。方式三：通过Grafana查看所有监控指标当AOM的监控模板不能满足用户诉求时，用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板，为用户提供基于网页仪表面板的可视化监控效果，使用户更加直观地查看到实时资源使用情况。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
配置多分支节点数据 - AI开发平台ModelArts

name="model_registration", # 模型注册节点的名称，命名规范(只能包含英文字母、数字、下划线（_）、中划线（-），并且只能以英文字母开头，长度限制为64字符)，一个Workflow里的两个step名称不能重复 title="模型注册", # 标题信息 inputs=wf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
设置断点续训练 - AI开发平台ModelArts

在指定的训练输出的数据存储位置中保存Checkpoint，且“预下载至本地目录”选择“下载”。选择预下载至本地目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置断点续训练建议和训练容错检查（即自动重启）功

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

1版本之前可能出现的调优不生效的场景，建议您直接使用MindSpore Lite Convertor2.1及以后的版本。配置文件指定选项进行AOE调优。使用转换工具配置config参数，具体如下所示，其中“subgraph tuning”表示子图调优，“operator tuning”表示算子调优。其中，“ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
创建模型不同方式的场景介绍 - AI开发平台ModelArts

在得到满意的模型后，可以将训练后得到的模型创建为模型，用于部署服务。从OBS中导入模型文件创建模型：如果您使用常用框架在本地完成模型开发和训练，可以将本地的模型按照模型包规范上传至OBS桶中，从OBS将模型导入至ModelArts中，创建为模型，直接用于部署服务。从容器镜像中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<bucket_name>/training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<bucket_name>/training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

files for xxx://xxx 原因分析在ModelArts中，用户的数据都是存放在OBS桶中，而训练作业运行在容器中，无法通过访问本地路径的方式访问OBS桶中的文件。处理方法读取文件报错，您可以使用Moxing将数据复制至容器中，再直接访问容器中的数据。请参见步骤1。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
增量模型训练 - AI开发平台ModelArts

在指定的训练输出的数据存储位置中保存Checkpoint，且“预下载至本地目录”选择“下载”。选择预下载至本地目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
创建诊断任务 - AI开发平台ModelArts

分析Notebook本地的性能数据如果您有两份性能数据想进行对比，可以点开Compared Profiling Data选项开关，然后分别在NPU Profiling Data和Compared Profiling Data项中输入性能数据所在的Notebook本地或OBS路径，单击Submit按钮。界面参考下图。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|── alpaca_gpt4_data.json #微调数据文件上传代码和权重文件到工作环境使用root用户以SSH的方式登录Server。将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
实时推理的部署及使用流程 - AI开发平台ModelArts

API。通过VPC高速访问通道的方式访问在线服务：使用VPC直连的高速访问通道，用户的业务请求不需要经过推理平台，而是直接经VPC对等连接发送到实例处理，访问速度更快。在线服务的API默认为HTTPS访问，同时还支持以下的传输协议：使用WebSocket协议的方式访问在线

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
分离部署推理服务 - AI开发平台ModelArts

已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
上传算法至SFS - AI开发平台ModelArts

gz在OBS上的路径（需将文件设置为公共读）。单机单卡运行脚本： # 在代码主目录下创建一个run.sh，内容如下 #!/bin/bash # 从obs中下载数据到本地SSD盘 DIS_DATA_PATH=/cache SRC_DATA_PATH=${imagenet数据集在obs中分享链接} OBSUT

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。 --trust-remote-code：是否相信远程代码。 --dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
多模态模型推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试

总条数： 709

上一页
1
...
26
27
28
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

创建模型不同方式的场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

上传算法至SFS - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线