搜索_华为云

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用任意文本编辑器创建prometheus-config.yml，内容如下。该YAML用于管理Prometheus的配置，部署Prometheus时通过文件系统挂载的方式，容器可以使用这些配置。 apiVersion: v1 kind: ConfigMap metadata: name: prometheus-config

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

属资源池。准备权重准备对应模型的权重文件。准备代码准备AscendCloud-6.3.908-xxx.zip。准备镜像准备推理模型适用的容器镜像。准备Notebook 本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
执行训练任务 - AI开发平台ModelArts

修改启动脚本demo.sh 进入代码目录{work_dir}/llm_train/LLaMAFactory下修改启动脚本，其中{work_dir}为容器挂载路径。是否为PPO强化训练。是，demo.sh添加变量； export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考步骤三启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
W4A16量化 - AI开发平台ModelArts
W4A16量化 - AI开发平台ModelArts

模型量化分为weight-only量化，weight-activation量化和kvcache量化。量化的一般步骤是：1、对浮点类型的权重镜像量化并保存量化完的权重；2、使用量化完的权重进行推理部署。什么是W4A16量化 W4A16量化方案能显著降低模型显存以及需要部署的卡数（

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
管理Lite Cluster节点池 - AI开发平台ModelArts

查看节点池的存储配置在节点池管理的更新页面，可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。在Lite资源池的扩缩容页面，也可以查看节点池的存储配置信息。查找搜索节点池在节点池管理页面的搜索栏中，支持通过节点池名称、规格

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
MoXing Framework功能介绍 - AI开发平台ModelArts

import moxing as mox 引入moxing framework的数据下载加速特性的相关说明在使用基于ModelArts预置镜像的训练作业时，可以引入moxing framework的数据下载加速特性。加速特性适用场景为：文件数在100w~1000w的场景、单个大文件及文件大小大于20GB的场景。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考Step3 启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考Step3 启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──LLaMA-Factory # 执行install.sh后生成此目录,容器内执行参考步骤三启动容器镜像 |──data # 原始数据目录，如使用自定义数据，参考准备数据（可选） |──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

属资源池。准备权重准备对应模型的权重文件。准备代码准备AscendCloud-6.3.909-xxx.zip。准备镜像准备推理模型适用的容器镜像。准备Notebook 本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
查询算法详情 - AI开发平台ModelArts

算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。 command String 自定义镜像算法的容器启动命令。 parameters Array of Parameter objects 算法的运行参数。 inputs Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

根据需要自定义应用的名称和版本。模型来源选择“从对象存储服务（OBS）中选择”，元模型选择转换后模型的存储路径，AI引擎选择“Custom”，引擎包选择准备镜像中上传的推理镜像。系统运行架构选择“ARM”。图2 设置AI应用单击“立即创建”开始AI应用创建，待应用状态显示“正常”即完成AI应用创建。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？问题现象当在Notebook中使用opencv.imshow后，会造成Notebook崩溃。原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。而matplotlib不存在这个问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
demo.sh方式启动（历史版本） - AI开发平台ModelArts

进入代码目录{work_dir}/llm_train/AscendFactory/scripts_llamafactory下修改启动脚本，其中{work_dir}为容器挂载路径 ①是否为PPO强化训练；是，demo.sh添加变量； export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
使用MoXing复制数据报错 - AI开发平台ModelArts

复制数据不成功，可以在Terminal界面中使用df -hT命令查看空间大小，排查是否因空间不足导致，可在创建Notebook时使用EVS挂载。如果代码写作正确，仍然无法解决该问题，请提交工单，由专业工程师为您分析并解决问题。父主题： MoXing

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
创建自动模型优化的训练作业 - AI开发平台ModelArts

确保您使用的OBS目录与ModelArts在同一区域。创建算法进入ModelArts控制台，参考创建算法操作指导，创建自定义算法。镜像应该满足pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64或tensorflow_2.1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
执行训练任务 - AI开发平台ModelArts

修改启动脚本demo.sh 进入代码目录{work_dir}/llm_train/LLaMAFactory下修改启动脚本，其中{work_dir}为容器挂载路径 ①是否为PPO强化训练；是，demo.sh添加变量； export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

修改启动脚本demo.sh 进入代码目录{work_dir}/llm_train/LLaMAFactory下修改启动脚本，其中{work_dir}为容器挂载路径 ①是否为PPO强化训练；是，demo.sh添加变量； export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小如数据大小已超过/cache目录大小，则可以考虑通过SFS来额外挂载数据盘进行扩容。将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。检查checkpoint相关逻

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

总条数： 1041

上一页
1
...
39
40
41
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

W4A16量化 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

demo.sh方式启动（历史版本） - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线