搜索_华为云

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
创建图像分类自动学习项目并完成图片标注，训练按钮显示灰色，无法开始训练？ - AI开发平台ModelArts

创建图像分类自动学习项目并完成图片标注，训练按钮显示灰色，无法开始训练？图像分类项目，图片标注至少需要两个类别，且每个类别至少5张图片，才可以开始自动训练。父主题：模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
如何关闭Mox的warmup - AI开发平台ModelArts

如何关闭Mox的warmup 问题现象训练作业mox的Tensorflow版本在运行的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
如何在CodeLab上安装依赖？ - AI开发平台ModelArts

如何在CodeLab上安装依赖？ ModelArts CodeLab中已安装Jupyter、Python程序包等多种环境，您也可以使用pip install在Notebook或Terminal中安装依赖包。在Notebook中安装在总览页面进入CodeLab。在“Noteb

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > CodeLab
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

can't be reached 创建完Notebook后，单击操作列的“打开”，报错如下：解决方案：复制页面的域名，添加到windows代理“请勿对以下列条目开头的地址使用代理服务器”中，然后保存就可以正常打开。父主题：实例故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
如何购买或开通ModelArts？ - AI开发平台ModelArts

如何购买或开通ModelArts？ ModelArts是一个即开即用的平台，无需购买或开通，直接进入ModelArts管理控制台，完成权限管理配置，然后选择所需功能，直接使用即可。 ModelArts平台仅针对使用计算规格的功能才涉及计费，公共资源池全部为按需模式，根据选用规格以

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

911）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡对CogVideoX模型基于sat框架进行全量微调。本文档中提供的脚本，是基于原生CogVideoX的代码基础适配修改，可以用于NPU芯片训练。 CogVideo是一个94亿参数的Tran

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

can't be reached 创建完Notebook后，单击操作列的“打开”，报错如下：解决方案：复制页面的域名，添加到windows代理“请勿对以下列条目开头的地址使用代理服务器”中，然后保存就可以正常打开。父主题： Notebook实例常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

save_summary_steps=save_summary_steps, save_model_secs=save_model_secs, checkpoint_path=flags.checkpoint_url, export_model=mox

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

如何删除预置镜像中不需要的工具预置的基础镜像中存在cpp、gcc等调试/编译工具，如果您不需要使用这些工具，可以通过运行脚本删除。创建一个run.sh脚本文件，文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
配置Workflow的输入输出目录 - AI开发平台ModelArts

配置Workflow的输入输出目录功能介绍统一存储主要用于工作流的目录管理，帮助用户统一管理一个工作流中的所有存储路径，主要分为以下两个功能：输入目录管理：开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理，规定用户按照自己的目录规划来存放数据，而存储的根目录可以根

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

提示“上传的AK/SK不可用”，如何解决？问题分析 AK与SK是用户访问OBS时需要使用的密钥对，AK与SK是一一对应，且一个AK唯一对应一个用户。如提示不可用，可能是由于账号欠费或AK与SK不正确等原因。解决方案使用当前账号登录OBS管理控制台，确认当前账号是否能访问OBS。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
训练作业容错检查 - AI开发平台ModelArts

设置API 检测项目与执行条件检测项目 item（日志关键字）执行条件检测成功要求域名检测 dns 无 volcano容器的域名都解析成功（/etc/volcano下的“.host”文件中的域名解析成功）磁盘空间-容器根目录 disk-size root 无大于32GB 磁盘空间-/dev/shm目录

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

Cluster资源池上使用Snt9B完成推理任务场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。图1 任务示意图操作步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

AK/SK认证：通过AK（Access Key ID）/SK（Secret Access Key）加密调用请求。 Token认证 Token的有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。 Token在计算机系统中代表令牌（临时）的意思，拥有Token就代表拥有某种权限。Toke

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1383

上一页
1
2
3
4
5
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

创建图像分类自动学习项目并完成图片标注，训练按钮显示灰色，无法开始训练？ - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

如何在CodeLab上安装依赖？ - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

如何购买或开通ModelArts？ - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

配置Workflow的输入输出目录 - AI开发平台ModelArts

提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线