搜索_华为云

获取自动化搜索作业yaml模板的信息 - AI开发平台ModelArts

Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/autosearch/yaml-templates 表1 路径参数参数是否必选参数类型描述 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器./work目录下。父主题： Notebook实例常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
不同机型的对应的软件配套版本 - AI开发平台ModelArts

eulerosv2r9.x86_64 架构类型：x86 RDMA：Remote Direct Memory Access（RDMA）是一种直接内存访问技术，将数据直接从一台计算机的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
身份认证与访问控制 - AI开发平台ModelArts

为了完成AI计算的各种操作，ModelArts在AI计算任务执行过程中需要访问用户的其他服务，例如训练过程中，需要访问OBS读取用户的训练数据。在这个过程中，就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发，ModelArts代表用户访问任何云服务之前

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
删除训练作业 - AI开发平台ModelArts

Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/training-jobs/{training_job_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
推理场景介绍 - AI开发平台ModelArts

28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23.0.6。适配的CANN版本是cann_8.0.rc3。资源规格要求本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：训练常见问题 - AI开发平台ModelArts

O-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查询训练作业日志 - AI开发平台ModelArts

查询训练作业日志功能介绍按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。表1 路径参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
AIGC工具tailor使用指导 - AI开发平台ModelArts

运行profiling的配置文件。 PROF_xxx开头的文件夹是运行profiling的结果文件夹。 run_aggregate.sh 是运行数据聚合的脚本，可直接本地运行。 run_profiling.log 是存储运行profiling的日志信息。父主题： AIGC模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练前卡死 - AI开发平台ModelArts

v2协议，默认使用RoCE v1，但是v1在交换机上没有拥塞控制，可能丢包，而且后面的交换机不会支持v1，就无法启动。 NCCL_IB_TC=128：数据包走交换机的队列4通道，这是RoCE协议标准。 NCCL_IB_TIMEOUT=22：把超时时间设置长一点，正常情况下网络不稳定会有5秒钟

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
Standard资源池功能介绍 - AI开发平台ModelArts

运行的作业可以访问打通网络中的存储和资源。例如，在创建训练作业时选择打通了网络的专属资源池，训练作业创建成功后，支持在训练时访问SFS中的数据。专属资源池支持自定义物理节点运行环境相关的能力，例如GPU/Ascend驱动的自助升级，而公共资源池暂不支持。专属资源池使用说明如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
停止训练作业版本 - AI开发平台ModelArts

此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192。 --dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。 --tensor-parallel-size：模型并

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
查看AI应用事件 - AI开发平台ModelArts

重新导入。FAQ 异常用户xxx没有OBS的obs:object:PutObjectAcl权限。 User %s does not have obs:object:PutObjectAcl permission 子用户没有OBS的obs:object:PutObjectAcl权限，为子用户添加委托权限。FAQ

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理AI应用
停止可视化作业 - AI开发平台ModelArts

通过查询可视化作业列表与查询可视化作业详情接口获取。 URI POST /v1/{project_id}/visualization-jobs/{job_id}/stop 参数说明如表1所示。表1 参数说明参数是否为必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

参数类型描述 current Integer 当前页数。 data Array of NotebookFlavor objects 分页数据。 flavors Array of NotebookFlavor objects 支持切换的规格列表。 pages Integer 总的页数。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练的权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练权重转换说明 - AI开发平台ModelArts

json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明若用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
获取训练作业事件列表 - AI开发平台ModelArts

String 训练作业ID。获取方法请参见查询训练作业列表。表2 Query参数参数是否必选参数类型描述 offset 否 Integer 数据条目偏移量。 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100]，默认为50。 order 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 1713

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

获取自动化搜索作业yaml模板的信息 - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

查询训练作业日志 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

训练前卡死 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

停止训练作业版本 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

查看AI应用事件 - AI开发平台ModelArts

停止可视化作业 - AI开发平台ModelArts

查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练权重转换说明 - AI开发平台ModelArts

获取训练作业事件列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线