搜索_华为云

Lite Cluster资源配置流程 - AI开发平台ModelArts

netes基础知识、网络知识、存储和镜像知识。配置流程图1 Lite Cluster资源配置流程图表1 Cluster资源配置流程配置顺序配置任务场景说明 1 配置Lite Cluster网络购买资源池后，需要弹性公网IP并进行网络配置，配置网络后可通过公网访问集群资源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

volumes=[nfs-x]”。原因分析用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通，运行于该专属资源池的训练作业才能正常挂载SFS。因此，当训练作业挂载SFS失败时，可能是网络不通导致的。处理步骤进入训练作业详情页，在左侧获取SFS Turbo的名称。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
Lite Cluster&Server介绍 - AI开发平台ModelArts

开通、网络互联、高性能存储、集群管理等能力，满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。 ModelArts Lite又分以下2种形态： ModelArts Lite Server提供不同型号的xPU裸金属服务器，您可以

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

Turbo存储后，支持将训练所需的数据通过ECS上传至SFS Turbo。检查云服务环境。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像用的是Ubuntu 18.04。 ECS服务器和SFS Turbo在同一子网中。在ECS服务器中设置华为云镜像源。 sudo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
在ModelArts的Notebook中，访问外网速度不稳定怎么办？ - AI开发平台ModelArts

ModelArts提供了一个免费的共享网络代理服务。借助这个代理，开发者可以更加便捷地下载所需的各类资源，助力开发工作的顺利进行。由于该网络代理免费且共享，其性能会受到实时访问量大小的显著影响。当众多用户同时使用代理进行资源下载时，网络带宽会被大量占用，从而导致代理速度下降，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
专属资源池VPC打通 - AI开发平台ModelArts

“AI专属资源池 > 弹性集群Cluster”，在“网络”页签，单击网络列表中某个网络操作列的“打通VPC”。图1 打通VPC 在打通VPC弹框中，打开“打通VPC”开关，在下拉框中选择可用的VPC和子网。需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

准备一台具有Docker功能的机器，如果没有，建议申请一台弹性云服务器并购买弹性公网IP，并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本，方便安装docker。本地Linux机器的操作等同ECS服务器上的操作，请参考本案例。登录ECS控制台，购买弹性云服务器，镜像选择“公共镜像”，推荐使用ubuntu18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
基本配置 - AI开发平台ModelArts
基本配置 - AI开发平台ModelArts

基本配置权限配置创建网络专属资源池VPC打通 ECS服务器挂载SFS Turbo存储在ECS中创建ma-user和ma-group obsutil安装和配置（可选）工作空间配置父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

模型复杂化。对同一个算法复杂化。例如回归模型添加更多的高次项，增加决策树的深度，增加神经网络的隐藏层数和隐藏单元数等。弃用原来的算法，使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo间网络直通，以及配置ModelArts网络关联SFS Turbo。若ModelArts网络关联SFS Turbo失败，则需要授权ModelArts云服务使用SFS Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图3 ModelArts网络关联SFS Turbo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
版本说明和要求 - AI开发平台ModelArts

Snt9B。请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901）
专属资源池关联SFS Turbo显示异常 - AI开发平台ModelArts

专属资源池关联SFS Turbo时显示异常，关联失败。图1 关联异常图2 报错提示问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息，而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。图3 关联SFS Turbo状态原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

关于Ant8裸金属服务器的购买，可以在华为云官网提工单至ModelArts云服务，完成资源的申请。步骤1 安装模型安装Megatron-DeepSpeed框架。使用root用户SSH的方式登录GPU裸金属服务器。具体登录方式请参见SSH密钥方式登录裸金属服务器。拉取pyto

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
版本说明和要求 - AI开发平台ModelArts

Snt9B。请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
VS Code手动连接Notebook - AI开发平台ModelArts

本章节介绍基于VS Code环境访问Notebook的方式。前提条件已下载并安装VS Code。详细操作请参考安装VS Code软件。用户本地PC或服务器的操作系统中建议先安装Python环境，详见VSCode官方指导。创建一个Notebook实例，并开启远程SSH开发。该实例状态必须处于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例

总条数： 1305

上一页
1
...
5
6
7
...
66
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster资源配置流程 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

在ModelArts的Notebook中，访问外网速度不稳定怎么办？ - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

基本配置 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

专属资源池关联SFS Turbo显示异常 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

VS Code手动连接Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线