搜索_华为云

创建Standard专属资源池 - AI开发平台ModelArts

开启高可用冗余 - 开启高可用冗余：是否开启资源池的高可用冗余，超节点默认开启高可用冗余。冗余节点分布策略：冗余节点的分布策略，超节点仅支持step均分：每个超节点内预留相同数量的冗余节点。冗余实例数：此规格设置的高可用冗余实例数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

具体步骤可参考：HF-Mirror中的使用教程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

具体步骤可参考：HF-Mirror中的使用教程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
查看日志和性能 - AI开发平台ModelArts

单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
Lite Cluster资源配置流程 - AI开发平台ModelArts

以MobaXterm为例，填入弹性公网IP，登录节点。图7 登录节点方式2：通过华为云自带的远程登录功能使用华为云账号登录CCE管理控制台。在CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

windows版本工具，下载链接见教程内。 Ascend Insight用户指南 PyTorch GPU推理迁移至MindSpore Lite NPU推理模型迁移 Tailor Mindspore-lite模型转换、精度误差分析、性能分析。 whl包，地址见教程中下载链接。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
查看Standard专属资源池详情 - AI开发平台ModelArts

图3 单个节点操作在节点的搜索栏，支持通过节点的名称、节点状态、高可用冗余、批次、驱动版本、驱动状态、IP地址、资源标签等关键字搜索节点。支持导出Standard资源池的节点信息到Excel表格中，方便查阅。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。处理方法选择其他网段的ModelArts网络重建资源池即可解决网段冲突问题。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

在ModelArts控制台续费包年/包月的Standard专属资源池、弹性集群Lite Cluster资源池和弹性节点Server资源池在购买成功后支持手动续费操作。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
非分离部署推理服务 - AI开发平台ModelArts

--address：头节点IP+端口号，头节点创建成功后，会有打印。正常启服务即可。推理服务基础参数说明如下： --model ${container_model_path}：模型地址，模型格式是HuggingFace的目录格式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

--address：头节点IP+端口号，头节点创建成功后，会有打印。正常启服务即可。推理服务基础参数说明如下： --model ${container_model_path}：模型地址，模型格式是HuggingFace的目录格式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

--address：头节点IP+端口号，头节点创建成功后，会有打印。正常启服务即可。推理服务基础参数说明如下： --model ${container_model_path}：模型地址，模型格式是HuggingFace的目录格式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port IB网卡的端口号。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

模型软件包结构说明本教程需要使用到的AscendCloud-6.3.909中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP，AscendCloud-LLM关键文件介绍如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

接口使用资源，业务跨云迁移无压力 SSH直达节点和容器，一致体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
训练作业容错检查 - AI开发平台ModelArts

图4 业务失败&硬件正常隔离故障节点后，系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张，重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟，训练作业会自动退出。该现象表明资源池规格任务紧张，训练作业无法正常启动，推荐您购买专属资源池补充计算节点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
内存不足如何处理？ - AI开发平台ModelArts

处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告警时，需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存，请升级在线服务选择更大内存规格的计算节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
（可选）配置驱动 - AI开发平台ModelArts

（可选）配置驱动当专属资源池中的节点含有GPU/Ascend资源时，为确保GPU/Ascend资源能够正常使用，需要配置好对应的驱动。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置

总条数： 910

上一页
1
...
11
12
13
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建Standard专属资源池 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线