搜索_华为云

创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

网段设置以后不能修改，避免与将要打通的VPC网段冲突。可能冲突的网段包括：用户的vpc网段容器网段（固定是172.16.0.0/16）服务网段（固定是10.247.0.0/16）确认无误后，单击“确定”。父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。处理方法选择其他网段的ModelArts网络重建资源池即可解决网段冲突问题。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
创建Standard专属资源池 - AI开发平台ModelArts

网段设置以后不能修改，避免与将要打通的VPC网段冲突。可能冲突的网段包括：用户的VPC网段容器网段（固定是172.16.0.0/16）服务网段（固定是10.247.0.0/16）确认无误后，单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果没有VPC可选，可以单击右侧的“创建虚拟私有云”，跳转到网络控制台，申请创建虚拟私有云。如果没有子网可选，可以单击右侧的“创建子网”，跳转到网络控制台，创建可用的子网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
专属资源池VPC打通 - AI开发平台ModelArts

需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果没有VPC可选，可以单击右侧的“创建虚拟私有云”，跳转到网络控制台，申请创建虚拟私有云。如果没有子网可选，可以单击右侧的“创建子网”，跳转到网络控制台，创建可用的子网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

集群容器网段不足，导致创建失败？图6 报错信息用户可根据实际业务场景和节点规模，自定义配置容器网段，配置方式如下： ModelArts Standard池，资源池创建阶段指定容器网段，根据实际需要设置更大的容器网段。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NCCL_IB_TC=128 ：使用RoCE v2协议，默认使用RoCE v1，但是v1在交换机上没有拥塞控制，可能会丢包，而且后续的交换机不会支持v1，会导致无法运行。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。如果不满足条件，则修改SFS Turbo的VPC网段，推荐网段为10.X.X.X。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
训练作业卡死检测 - AI开发平台ModelArts

NCCL_IB_GID_INDEX=3：使用RoCE v2协议，默认使用RoCE v1，但是v1在交换机上没有拥塞控制，可能丢包，而且后面的交换机不会支持v1，就无法启动。 NCCL_IB_TC=128：数据包走交换机的队列4通道，这是RoCE协议标准。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询OS的配置参数 - AI开发平台ModelArts

查询OS的配置参数功能介绍获取ModelArts OS服务的配置参数，如网络网段，用户资源配额等。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

需要打通的对端网络不能和当前网段重叠。创建Modelarts专属资源池。在控制台左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。在“Standard资源池”页签，单击“购买AI专属集群创建专属资源池”，进入购买AI专属集群创建专属资源池界面填写参数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
PD分离部署使用说明 - AI开发平台ModelArts

PD分离部署使用说明什么是PD分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。 Decode阶段（增量推理）将请求的前1个token

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
使用CES监控Lite Server资源 - AI开发平台ModelArts

NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障这是一个用于辅助其他事件进行判断的事件，无需单独定位处理这是一个用于辅助其他事件进行判断的事件，无需单独定位处理 GPU: RoCE网卡配置错误 GpuRoceNicConfigIncorrect

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
Lite Cluster高危操作一览表 - AI开发平台ModelArts

网络修改/删除集群关联网段。影响ModelArts侧基本功能，包括但不限于节点管理、扩缩容、驱动升级等。高不可恢复。插件升级、卸载gpu-beta插件。可能导致GPU驱动使用异常。中回退版本、重装插件。升级、卸载huawei-npu插件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范。Web IDL中的WebSocket

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
模型训练使用流程 - AI开发平台ModelArts

模型训练使用流程 AI模型开发的过程，称之为Modeling，一般包含两个阶段：开发阶段：准备并配置环境，调试代码，使代码能够开始进行深度学习训练，推荐在ModelArts开发环境中调试。实验阶段：调整数据集、调整超参等，通过多轮实验，训练出理想的模型，推荐在ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发背景说明 WebSocket是一种网络传输协议，可在单个TCP连接上进行全双工通信，位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455，后由RFC 7936补充规范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用MaaS调优模型 - AI开发平台ModelArts

MOSS：用于存储和交换机器学习模型数据的数据集格式，文件类型为jsonl。 Alpaca：用于训练语言模型的数据集格式，文件类型为jsonl。 ShareGPT：用于分享GPT模型对话结果的数据集格式，文件类型为jsonl。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
数据保护技术 - AI开发平台ModelArts

数据保护技术 ModelArts通过多种数据保护手段和特性，保障存储在ModelArts中的数据安全可靠。数据保护手段说明静态数据保护对于AI Gallery收集的用户个人信息中的敏感信息，如用户邮箱和手机号，AI Gallery在数据库中做了加密处理。其中，加密算法采用了国际通用的

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全

总条数： 519

上一页
1
2
3
4
5
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建网络 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

查询OS的配置参数 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线