搜索_华为云

查询服务监控信息 - AI开发平台ModelArts

cpu_core_total Float 总CPU核数。 cpu_memory_usage Integer 已使用内存，单位MB。 cpu_memory_total Integer 总内存，单位MB。 gpu_usage Float 已使用GPU个数。 gpu_total Float 总GPU个数。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
创建诊断任务 - AI开发平台ModelArts

置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu memory（取决于模型大小），请根据实际分析环境的资源规格调整该参数，避免因cpu资源占用过大或者OOM类问题导致的notebook实例异常。 5 dis

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
执行训练任务【旧】 - AI开发平台ModelArts

断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。训练作业中的训练故障自动恢复功能包括：训练容错检

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

PyTorch Profiler接口，可在训练过程中采集性能数据文件，包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等。包含在torch_npu包中。 Ascend PyTorch Profiler数据采集与分析 MA-Advisor 性能自动诊

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
获取训练作业支持的公共规格 - AI开发平台ModelArts

String 内存。表9 Npu 参数参数类型描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。表10 Memory 参数参数类型描述 size Integer 内存大小。 unit

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

1434 SQL Server的TCP端口，用于返回SQLServer使用了哪个TCP/IP端口。 Oracle 1521 Oracle通信端口，弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

cpu.8ud) 计算节点个数：1个用了一段时间后，于2023/03/20 10:30:00停止训练作业。那么在3月份，该公共资源池总共产生多少费用呢？计费构成分析在2023/03/18 15:30:00 ~ 2023/03/20 9:00:00期间按照CPU: 8 核 32GB规格、1个节点计费，计费单价为3

帮助中心 > AI开发平台ModelArts > 计费说明
在线服务预测报错MR.0105 - AI开发平台ModelArts

部署为在线服务，服务处于运行中状态，预测时报错：{ "erno": "MR.0105", "msg": "Recognition failed","words_result": {}}。图1 预测报错原因分析请在“在线服务”详情页面的日志页签中查看对应的报错日志，分析报错原因。图2 报错日志

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask 只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
LoRA微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
服务启动失败 - AI开发平台ModelArts

资源不足，服务调度失败服务启动失败，提示资源不足，服务调度失败，请参考服务部署、启动、升级和修改时，资源不足如何处理？内存不足服务启动失败，提示内存不足，请参考内存不足如何处理？父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询训练作业版本详情 - AI开发平台ModelArts

system_metric_list属性列表参数参数类型说明 cpuUsage Array 训练作业CPU资源占用率。 memUsage Array 训练作业内存资源占用率。 gpuUtil Array 训练作业GPU资源占用率。表7 metric属性列表参数参数类型说明 metric_values

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
SFT全参微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

4206表示该API的请求流量超过了设定值。为了保证服务的平稳运行，ModelArts对单个API的推理请求流量做了限制，同时为了保证推理服务可以稳定运行在合理区间，ModelArts将限流值设定在一个较高区间。处理办法降低API的流量，如果确有超高并发的需求，请提工单处理。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

根据报错提示，需要排查是否将大量数据被保存在“/tmp”中。处理方法进入到“Terminal”界面。在“/tmp”目录下，执行命令du -sh *，查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
查询训练作业版本列表 - AI开发平台ModelArts

system_metric_list属性列表参数参数类型说明 cpuUsage Array 训练作业CPU资源占用率。 memUsage Array 训练作业内存资源占用率。 gpuUtil Array 训练作业GPU资源占用率。表9 metric属性列表参数参数类型说明 metric_values

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask 只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask 只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明

总条数： 399

上一页
1
2
3
4
5
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询服务监控信息 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

在线服务预测报错MR.0105 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线