搜索_华为云

配置Grafana数据源 - AI开发平台ModelArts

单击“Prometheus”，进入Prometheus配置页面。图4 进入Prometheus配置页面参考下图进行配置。图5 配置Grafana数据源 Grafana安装方式不同，Grafana版本也可能不同，图5仅为示例，请以实际配置界面为准。表1 参数配置说明参数名称配置说明 Name 自定义名称。 URL

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
数据准备使用流程 - AI开发平台ModelArts

下主要能力：解决用户获取数据的问题。用户可在AI Gallery上一键下载需要的数据资源到ModelArts数据集。提供多种数据接入方式，支持用户从OBS，MRS，DLI以及DWS等服务导入用户的数据。提供18+数据增强算子，帮助用户扩增数据，增加训练用的数据量。帮助用户提高数据的质量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

重启Docker daemon： sudo systemctl restart docker 步骤三：运行DCGM-Exporter 以Docker方式运行DCGM-Exporter： DCGM_EXPORTER_VERSION=3.1.7-3.1.4 && \ docker run -d

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
删除网络资源 - AI开发平台ModelArts

参数参数类型描述 peerConnectionList Array of peerConnectionList objects Peer方式打通网络列表。表8 peerConnectionList 参数参数类型描述 peerVpcId String 对端的VPC ID。 peerSubnetId

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
注册API并授权给APP - AI开发平台ModelArts

AuthTypeApiBasicInfo 参数参数类型描述 api_id String API编号。 api_method String 请求方式包含GET、POST、PUT、DELETE、HEAD、PATCH、OPTIONS、ANY，固定返回ANY。 api_name String

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
配置授权 - AI开发平台ModelArts
配置授权 - AI开发平台ModelArts

用户进行授权，如果已有部分用户已授权，则更新授权。仅当授权类型为委托时，需要该字段。 type 否 String 授权类型。推荐使用委托方式。可选值： agency：委托 credential：访问密钥（AK/SK） content 是 String 授权内容。当授权类型是委托，该字段为委托名称。

帮助中心 > AI开发平台ModelArts > API参考 > 授权管理
训练场景和方案介绍 - AI开发平台ModelArts

镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表2 基础容器镜像地址配套软件版本镜像用途镜像地址配套获取方式 6.3.908版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

ized_keys config id_rsa id_rsa.pub”。提交创建训练作业后，训练过程中，训练作业的节点可通过域名+端口的方式SSH连接到其他节点，示例代码如下所示： ssh modelarts-job-a0978141-1712-4f9b-8a83-000000000000-worker-1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
设置无条件自动重启 - AI开发平台ModelArts

当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“自动重启”开关，并勾选“无条件自动重启”，开启无条件自动重启。开启无

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

针对用户创建的Notebook计算实例，后台计算节点故障后会立即自动迁移到其他可用节点上，实例状态会自动恢复。针对数据存储部分，提供了云硬盘存储挂载方式。云硬盘提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，数据持久性高达99.9999999%。训练故障自动恢复用户在训练模型过

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。 --speculative-model ${container_draft_model_path}：投机草稿模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。 --speculative-model ${container_draft_model_path}：投机草稿模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
查询支持的服务部署规格 - AI开发平台ModelArts

is_personal_cluster 否 Boolean 是否查询专属资源池支持的服务部署规格列表，默认为false。 infer_type 否 String 推理方式，枚举值如下： real-time：在线服务，默认值 batch：批量服务 edge: 边缘服务 limit 否 String 指定每一页返回的最大条目数，默认为1000。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：如果是“包年/包月”且资源未到期的节点，您可单击操作列的“退订”，即可实现对单个节点的资源释放。支持批量退订节点。如果是

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

2048B、4096B）创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
免费体验MaaS预置服务 - AI开发平台ModelArts

选择“预置服务”页签。领取免费调用额度。在预置服务列表，选择所需的服务，单击操作列的“领取”。当领取置灰时，表示该服务的免费额度已领取。有以下两种方式免费体验预置服务。在“模型体验”页面进行推理。在预置服务列表，选择所需的服务，单击操作列的“体验”，跳转到“模型体验”页面，进行参数设

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
训练场景和方案介绍 - AI开发平台ModelArts

镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表2 基础容器镜像地址配套软件版本镜像用途镜像地址配套获取方式 6.3.908版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

令无区别。 Ascend-Powered-Engine框架支持多种启动方式来启动“启动文件”，默认是基于“RANK_TABLE_FILE”启动，也可以通过配置“MA_RUN_METHOD”环境变量使用其他方式来启动。MA_RUN_METHOD环境变量支持torchrun和msrun。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

/{service_id}/predict/endpoints?type=host_endpoints 方式一：图形界面的软件获取服务的IP和端口号图6 接口返回示例方式二：Python语言获取IP和端口号 Python代码如下，下述代码中以下参数需要手动修改： projec

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
Msprobe梯度监控 - AI开发平台ModelArts

csv表示每个Step各个权重参数两次比对相似度值，以及 {param_name}.png和summary_similarities.png以折线图方式表示各个Step相似度不比对结果。详细工具的使用指导请参考梯度状态监控工具介绍。父主题： Msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导

总条数： 745

上一页
1
...
24
25
26
...
38
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置Grafana数据源 - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

配置授权 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

查询支持的服务部署规格 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

Msprobe梯度监控 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线