搜索_华为云

训练作业卡死检测 - AI开发平台ModelArts

NCCL_IB_GID_INDEX=3：使用RoCE v2协议，默认使用RoCE v1，但是v1在交换机上没有拥塞控制，可能丢包，而且后面的交换机不会支持v1，就无法启动。 NCCL_IB_TC=128：数据包走交换机的队列4通道，这是RoCE协议标准。 NCCL_IB_TIMEOUT=22：把超时时间设置长一点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

rdzv_backend：Rendezvous后端，固定设置为static，即不使用Rendezvous，而是使用master_addr和master_port配置。另外，可通过设置MA_EXTRA_TORCHRUN_PARAMS环境变量值，以增加额外的torchrun命令参数，或是覆盖预设的tor

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

学习本案例，您可以快速了解如何在MaaS服务上的创建和部署模型。更多MaaS服务的使用指导请参见用户指南。操作流程开始使用如下样例前，请务必按准备工作指导完成必要操作。步骤1：创建我的模型：使用基础模型创建自定义模型。步骤2：部署模型服务：使用创建成功的自定义模型部署模型服务。

帮助中心 > AI开发平台ModelArts > 快速入门
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

登录AOM控制台。在左侧导航栏选择“告警管理 > 告警规则”，单击“创建”，创建告警规则。设置告警规则（以NPU掉卡为例）。规则类型：选择“指标告警规则”。配置方式：选择“PromQL”。设置告警规则详情。默认规则：选择“自定义”。命令行输入框(排除值为2的为无效数据)：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

Function calling 设置为“Tool Call”。 Stream function calling 暂不支持。在Dify中创建Agent进行编配，在右上角单击“Agent 设置”，选择上一步配置好的模型进行使用。在Agent设置中可以看到Dify已自动将Agent

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
安装VS Code软件 - AI开发平台ModelArts

https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：图2 Windows系统下VS Code安装指导 Linux系统下，执行命令sudo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见表3。 Step1使用tensorRT量化工具进行模型量化，必须在GPU环境在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
实时推理的部署及使用流程 - AI开发平台ModelArts

Token认证：Token具有时效性，有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。 AK/SK认证：使用AK/SK对请求进行签名，在请求时将签名信息添加到消息头，从而通过身份认证。AK/SK签名认证方式仅支持消息体大小12M以内，12M以上的请求请使用Token认证。 APP认证

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
使用Notebook进行AI开发调试 - AI开发平台ModelArts

使用Notebook进行AI开发调试 Notebook使用场景创建Notebook实例通过JupyterLab在线使用Notebook实例进行AI开发通过PyCharm远程使用Notebook实例通过VS Code远程使用Notebook实例通过SSH工具远程使用Notebook

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

ModelArts提供如下方式实现模型训练前的算法准备。使用订阅算法 ModelArts的AI Gallery提供了可以直接订阅的算法，不需要进行代码开发，即可使用现成的算法进行模型构建。使用预置框架如果您需要使用自己开发的算法，可以选择使用ModelArts预置框架。ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
Lite Server使用前必读 - AI开发平台ModelArts

Lite Server使用前必读 Lite Server使用流程 Lite Server高危操作一览表 Lite Server算力资源和镜像版本配套关系

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite Cluster使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表不同机型的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发使用JupyterLab在线开发和调试代码 JupyterLab常用功能介绍在JupyterLab使用Git克隆代码仓在JupyterLab中创建定时任务上传文件至JupyterLab 下载JupyterLab文件到本地

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
查看训练作业日志 - AI开发平台ModelArts

在训练进程结束后，该日志会生成到训练容器中。其中，使用MindSpore预置框架训练的device日志会自动上传到OBS，使用其他预置框架和自定义镜像训练的device日志如果需要自动上传到OBS，则需要在代码中配置ASCEND_PROCESS_LOG_PATH，具体请参考如下示例。 #

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

表2 推理效果的指标介绍指标名称指标说明 CPU使用率在推理服务启动过程中，机器的CPU占用情况。内存使用率在推理服务启动过程中，机器的内存占用情况。显卡使用率在推理服务启动过程中，机器的NPU/GPU占用情况。显存使用率在推理服务启动过程中，机器的显存占用情况。父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
部署模型为在线服务 - AI开发平台ModelArts

如您仅部署一个版本的模型，请设置为100%。如您添加多个版本进行灰度发布，多个版本分流之和设置为100%。 “实例规格” 请根据界面显示的列表，选择可用的规格，置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据，表示当前环境无公共资源。建议使用专属资源池。说明：使用所选规格部署服

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
使用自动学习实现物体检测 - AI开发平台ModelArts

使用自动学习实现物体检测准备物体检测数据创建物体检测项目标注物体检测数据训练物体检测模型部署物体检测服务父主题：使用自动学习实现零代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
标注物体检测数据 - AI开发平台ModelArts

标注物体检测数据物体检测之前，首先需考虑如何设计标签，标签设计需要对应所检测图片的明显特征，并且选择的标签比较容易识别（画面主体物与背景区分度较高），每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后，基于设计好的标签准备该图片的数据，每种需识别出的标签，建议应

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测

总条数： 2363

上一页
1
...
11
12
13
...
119
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业卡死检测 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

使用Notebook进行AI开发调试 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

Lite Server使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

使用自动学习实现物体检测 - AI开发平台ModelArts

标注物体检测数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线