搜索_华为云

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

CPU使用率在推理服务启动过程中，机器的CPU占用情况。内存使用率在推理服务启动过程中，机器的内存占用情况。显卡使用率在推理服务启动过程中，机器的NPU/GPU占用情况。显存使用率在推理服务启动过程中，机器的显存占用情况。父主题： AI Gallery（新版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Standard训练作业：用户在运行训练作业时，可以查看训练任务占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。 Standard在线服务：用户将模型部署为在线服务后，可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计，具体参见查看推理服务详情章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
Yaml配置文件参数配置说明 - AI开发平台ModelArts

理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

卡均被占用，说明训练任务在进行中 npu-smi info 图7 查看卡信息若想停止训练任务，可执行下述命令关闭进程，查询进程后显示已无运行中python进程。 pkill -9 python ps -ef 图8 关闭训练进程 limit/request配置cpu和内存大小，已

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
管理Lite Cluster资源池 - AI开发平台ModelArts

为系统需要重新从磁盘加载数据到内存中）。关闭表示不启用缓存清理功能。大页内存：开启表示配置使用透明大页功能。大页内存是一种内存管理机制，可以通过增大内存页的大小来提高系统性能。透明大页是动态分配大页内存的机制，可以简化大页内存的管理。开启大页内存也是一种应用调优手段，在大部分场

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

1:8080/goodbye 图3 访问在线服务 limit/request配置cpu和内存大小，已知单节点Snt9B机器为：8张Snt9B卡+192u1536g，请合理规划，避免cpu和内存限制过小引起任务无法正常运行。父主题： Lite Cluster资源使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
部署的在线服务状态为告警 - AI开发平台ModelArts

后台预测请求过多。如果您使用API接口进行预测，请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。业务内存不正常。请检查推理代码是否存在内存溢出或者内存泄漏的问题。模型运行异常。请检查您的模型是否能正常运行。例如模型依赖的资源是否故障，需要排查推理日志。实例pod数量异常

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询服务监控信息 - AI开发平台ModelArts

cpu_core_total Float 总CPU核数。 cpu_memory_usage Integer 已使用内存，单位MB。 cpu_memory_total Integer 总内存，单位MB。 gpu_usage Float 已使用GPU个数。 gpu_total Float 总GPU个数。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）
获取训练作业支持的公共规格 - AI开发平台ModelArts

String 内存。表9 Npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表10 Memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
SFT全参微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

cpu.8ud) 计算节点个数：1个用了一段时间后，于2023/03/20 10:30:00停止训练作业。那么在3月份，该公共资源池总共产生多少费用呢？计费构成分析在2023/03/18 15:30:00 ~ 2023/03/20 9:00:00期间按照CPU: 8 核 32GB规格、1个节点计费，计费单价为3

帮助中心 > AI开发平台ModelArts > 计费说明
Notebook停止或者重启后，“/cache”下的文件还存在么？如何避免重启？ - AI开发平台ModelArts

a-user/work”目录下的数据，在Notebook实例停止或重启后，会被保留。为避免重启，请勿在开发环境中进行重型作业训练，如大量占用资源的作业。父主题：数据存储

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

1434 SQL Server的TCP端口，用于返回SQLServer使用了哪个TCP/IP端口。 Oracle 1521 Oracle通信端口，弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 320

上一页
1
2
3
4
5
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

Notebook停止或者重启后，“/cache”下的文件还存在么？如何避免重启？ - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线