搜索_华为云

昇腾迁移快速入门案例 - AI开发平台ModelArts

按照对应的存储使用情况选择存储大小。 SSH远程开发如果需通过VS Code远程连接Notebook实例，可打开SSH远程开发，并选择自己的密钥对。在Notebook列表，单击“操作”列的“打开”，打开Notebook实例。克隆ModelArts Ascend代码库。新建Terminal，执行下述命令将对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

start”如何解决？问题现象解决方法检查VS Code版本是否为1.78.2或更高版本，如果是，请查看Remote-SSH版本，如果低于v0.76.1，请升级Remote-SSH。打开命令面板（Windows： Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何在Lite Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要）前提条件 ECS服务器已挂载SFS，请参考ECS服务器挂载SFS Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？问题现象部署在线服务完成且在线服务处于“运行中”状态时，通过ModelArts console的调用指南tab页签可以获取到推理请求的地址，但是不知道如何填写推理请求的header及body。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
在ModelArts的Notebook中使用VS Code如何查看远端日志？ - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code如何查看远端日志？在VS Code环境中执行Ctrl+Shift+P 搜show logs 选择Remote Server。也可在如下截图的红框处切换至其他的Log 父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在ModelArts自动学习中，如何进行增量训练？ - AI开发平台ModelArts

在ModelArts自动学习中，如何进行增量训练？在自动学习项目中，每训练一次，将自动产生一个训练版本。当前一次的训练结果不满意时（如对训练精度不满意），您可以适当增加高质量的数据，或者增减标签，然后再次进行训练。增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

准备一台具有Docker功能的机器，如果没有，建议申请一台弹性云服务器并购买弹性公网IP，并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本，方便安装docker。本地Linux机器的操作等同ECS服务器上的操作，请参考本案例。登录ECS控制台，购买弹性云服务器，镜像选择“公共镜像”，推荐使用ubuntu18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

如果您需要在服务器上部署相关业务，较之物理服务器，弹性云服务器的创建成本较低，并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施，并且这些基础设施是弹性的，可以根据需求伸缩。操作指导请参考自定义购买ECS。购买时需注意，ECS需要和SFS买到同一个VPC才能挂载SFS存储。购买ModelArts专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？ ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后，在训练启动文件被执行前系统会执行如下命令，以安装用户指定的Python Packages。 pip

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？问题现象使用MoXing训练模型，“global_step”放在Adam名称范围下，而非MoXing代码中没有Adam名称范围，如图1所示。其中1为

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
如何登录并上传镜像到SWR？ - AI开发平台ModelArts

此处实际创建的组织名称。单击右上角“登录指令”，获取登录访问指令。以root用户登录ECS环境，输入登录指令。图1 在ECS中执行登录指令 Step2 上传镜像到SWR 此小节介绍如何上传镜像至容器镜像服务SWR的镜像仓库。登录SWR后，使用docker tag命令给上传

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

启动成功的回显执行如下命令，查看日志。日志显示如图所示表示成功执行动态路由。 kubectl logs {pod-name} 其中{pod-name}替换为实际pod名称，可以在5的回显信息中获取。图4 成功执行动态路由的回显只有任务节点大于等于3的训练任务才能成功执行动态路由。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？问题现象当在Notebook中使用opencv.imshow后，会造成Notebook崩溃。原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。而matplotlib不存在这个问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
如何上传数据至OBS？ - AI开发平台ModelArts

对象。obsutil是一款用于访问管理OBS的命令行工具，对于熟悉命令行程序的用户，obsutil是执行批量处理、自动化任务的好的选择。如果您的业务环境需要通过API或SDK执行数据上传操作，或者您习惯于使用API和SDK，推荐选择OBS的API或SDK方法创建桶和上传对象。

帮助中心 > AI开发平台ModelArts > 常见问题 > 历史文档待下线
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

1f-mind/ --hccl_config /user/config/jobstart_hccl.json --cmd_file ./distributed_cmd.sh bash scripts/run_distributed_pretrain_ascend.sh /home

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关

总条数： 1590

上一页
1
...
7
8
9
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

昇腾迁移快速入门案例 - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

在ModelArts的Notebook中使用VS Code如何查看远端日志？ - AI开发平台ModelArts

在ModelArts自动学习中，如何进行增量训练？ - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

资源购买 - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

如何登录并上传镜像到SWR？ - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

如何上传数据至OBS？ - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线