搜索_华为云

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

running”状态代表启动成功。 kubectl get pod -A 进入容器，{pod_name}替换为您的pod名字（get pod中显示的名字），{namespace}替换为您的命名空间（默认为default）。 kubectl exec -it {pod_name} bash -n

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linux内核模块，它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输，而

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

因导致的问题现象在线服务启动后，当在线服务进入到“运行中”状态后，进行预测，预测请求发出后，收到的响应不符合预期，无法判断是不是模型的问题导致的不符合预期。原因分析在线服务启动后，ModelArts提供两种方式的预测：方式1：在ModelArts的Console的预测页签进行预测；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

ModelArts作为顶层服务，其部分功能依赖于其他服务的访问权限。本章节主要介绍对于IAM子账号使用ModelArts时，如何根据需要开通的功能配置子账号相应权限。权限列表子账号的权限，由主用户来控制，主用户通过IAM的权限配置功能设置用户组的权限，从而控制用户组内的子账号的权限。此处的授权列表均按照Mode

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
什么是ModelArts - AI开发平台ModelArts

短开发周期。访问方式 ModelArts基于不同的产品形态提供了多种访问方式。管理控制台方式 ModelArts Standard支持通过管理控制台访问，包含自动学习、数据管理、开发环境、模型训练、AI应用管理、部署上线等功能，您可以在管理控制台端到端完成您的AI开发。 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts权限管理基本概念 - AI开发平台ModelArts

ModelArts的功能都需经过授权，可以更精确的控制子账号的权限范围，达成权限最小化的安全策略。用工作空间限制资源访问工作空间是ModelArts面向企业用户提供的一个高阶功能，用于进一步将用户的资源划分在多个逻辑隔离的空间中，并支持以空间维度进行访问的权限限定。目前工作空

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
获取API授权关系列表 - AI开发平台ModelArts

获取API授权关系列表功能介绍获取指定的API与APP授权关系列表，API的认证方式必须是APP认证，管理员可以获取所有API的授权信息，普通用户只能获取自己有访问权限的服务下的API的授权信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GPU相关问题业务代码问题预置算法运行故障训练作业运行失败专属资源池创建训练作业训练作业性能问题 Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除
模型训练存储加速 - AI开发平台ModelArts

加载带来的I/O挑战，华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案，如下图所示。 SFS Turbo HPC型支持和OBS数据联动，您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问，并将生成的结果数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts” 和文件夹名称均为举例，请替换为用户自定义的名称。创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。请确保您使用的OBS与ModelArts在同一区域。表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
管理AI Gallery镜像 - AI开发平台ModelArts

资产发布上架后，准确、完整的资产介绍有助于提升资产的排序位置和访问量，能更好的支撑用户使用该资产。在镜像详情页，选择“镜像介绍”页签，单击右侧“编辑介绍”。编辑镜像基础设置和镜像描述。表1 镜像介绍的参数说明参数名称说明基础设置中文名称显示镜像的名称，不可编辑。 README

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
在线服务和批量服务有什么区别？ - AI开发平台ModelArts

在线服务和批量服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。批量服务批量服务可对批量数据进行推理，完成数据处理后自动停止。批量服务一次性推理批量数据，处理完服务结束。在线服务提供API接口，供用户调用推理。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
非分离部署推理服务 - AI开发平台ModelArts

每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

eus.yml \ prom/prometheus 这里使用的是Prometheus最基本的功能，如有更高级的诉求，可参考prometheus的官方文档。步骤五：安装Grafana 运行社区最新发行的Grafana版本： docker run -d -p 3000:3000

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作

总条数： 711

上一页
1
...
7
8
9
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

获取API授权关系列表 - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

管理AI Gallery镜像 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

在线服务和批量服务有什么区别？ - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线