搜索_华为云

查看训练作业日志 - AI开发平台ModelArts

开启永久保存日志开关实时日志和历史日志都是标准日志输出，内容上没有区别。Ascend训练场景下，永久日志中会包含Ascend日志，这部分日志内容在ModelArts界面上看不到。普通日志说明普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts Standard平台日志。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

lf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数，用于读取、修改和创建ELF文件，而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。安装过程中的提示均选OK或YES，安装好后执行reboot重启机器，再次登录后执行命令查看GPU卡信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
非分离部署推理服务 - AI开发平台ModelArts

"software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
创建训练作业 - AI开发平台ModelArts

id：只取算法的id； subscription_id+item_version_id：取算法的订阅id和版本id； code_dir+boot_file：取训练作业的代码目录和启动文件。 tasks 否 Array of Task objects 任务列表。该功能暂未实现。 spec

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

际情况替换containerName参数和command参数 spec: containers: - name: my-task image: my-task-image:latest # 替换为实际使用的镜像业务负载和自定义指标采集可以共用一个容器，也可以由S

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的部署区域，获取项目ID和名称、获取账号名和ID和获取用户名和用户ID。已准备好PyTorch框架的训练代码，例如将启动文件“test-pytorch

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
W4A16量化 - AI开发平台ModelArts
W4A16量化 - AI开发平台ModelArts

数据类型（activation）和kvcache一般使用半精度浮点FP16或BF16。量化指将高比特的浮点转换为更低比特的数据类型的过程。例如int4、int8等。模型量化分为weight-only量化，weight-activation量化和kvcache量化。量化的一般步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
使用AWQ量化 - AI开发平台ModelArts

llm_tools/AutoAWQ bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

PyTorch-2.1.0 conda activate awq 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 python examples/quantize.py --model-path /home/ma-user/llama-2-7b/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

llm_tools/AutoAWQ bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

击操作列的“打通VPC”。图2 打通VPC 在打通VPC弹框中，打开“打通VPC”开关，在下拉框中选择提前创建好的VPC和子网。需要打通的对端网络不能和当前网段重叠。创建Modelarts专属资源池。在控制台左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化可以在Hu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
创建生产训练作业 - AI开发平台ModelArts

创建生产训练作业模型训练是一个不断迭代和优化模型权重的过程。ModelArts的训练模块支持创建训练作业、查看训练情况以及管理训练版本。通过模型训练试验模型结构、数据和超参的各种组合，便于找到最佳的模型结构和权重。创建生产环境的训练作业有2种方式：通过ModelArts S

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
什么是ModelArts - AI开发平台ModelArts

用户可以直接操作资源池中的节点和k8s集群。适用于已经自建AI开发平台，仅有算力需求的用户。要求用户具备k8s基础知识和技能。 ModelArts Edge 为客户提供了统一边缘部署和管理能力，支持统一纳管异构边缘设备，提供模型部署、Al应用和节点管理、资源池与负载均衡、应用

 帮助中心 > AI开发平台ModelArts > 产品介绍
准备图像分类数据 - AI开发平台ModelArts

像分类项目中，至少有两种以上的分类，每种分类的样本不少于20张。为了保证模型的预测准确度，训练样本跟真实使用场景尽量相似。为保证模型的泛化能力，数据集尽量覆盖可能出现的各种场景。数据上传至OBS 在本文档中，采用通过OBS管理控制台将数据上传至OBS桶。上传OBS的文件规范：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
修改训练作业优先级 - AI开发平台ModelArts

约束限制仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。作业优先级取值为1~3，默认优先级为1，最高优先级为3。默认用户权限可选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

目前IAM支持可视化视图创建自定义策略和JSON视图创建自定义策略，本章节将使用JSON视图方式的策略，以为ModelArts用户授予开发环境的使用权限并且配置ModelArts用户OBS相关的最小化权限项为例，指导您进行自定义策略配置。涉及到其他更多功能和依赖服务的自定义策略内容参见ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

下载并安装AutoAWQ源码。 bash build.sh 2、运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 export ASCEND_RT_VISIBLE_DEVICES=0 #设置使用NPU单卡执行模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

Notebook业务指标 Notebook cache目录大小 ma_container_notebook_cache_dir_size_bytes GPU和NPU类型的Notebook会在“/cache”目录上挂载一块高速本地磁盘，该指标描述该目录的总大小。字节（Bytes） ≥0 NA NA

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控

总条数： 525

上一页
1
...
8
9
10
...
27
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看训练作业日志 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

W4A16量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

准备图像分类数据 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线