搜索_华为云

创建DevServer - AI开发平台ModelArts

REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS: 重装操作系统中： REINSTALLINGOS_FAILED。重装操作系统失败。 vpc_id String 实例所在虚拟私有云ID。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
训练网络迁移总结 - AI开发平台ModelArts

方法得到较好的应用。通用的训练任务调优、参数调优可以通过可观测数据来进行分析与优化，一般来说分段对比GPU的运行性能会有比较好的参考。算子级的调优某些情况下如果是明显的瓶颈或者性能攻坚阶段，考虑到门槛较高，可以联系华为工程师获得帮助。精度问题根因和表现种类很多，会导致问题定位较

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练专属预置镜像列表 - AI开发平台ModelArts

04-x86_64-roma-20220309171256-40adcc1 镜像构建时间：20220309171256 (yyyy-mm-dd-hh-mm-ss) 镜像系统版本：Ubuntu 18.04.4 LTS cuda：10.2.89 cudnn：7.6.5.32 Python解释器路径及版本：/hom

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
人工标注文本数据 - AI开发平台ModelArts

e，宾语/Object）结构化知识的场景，标注时不但可以标注出语句当中的实体，还可以标注出实体之间的关系，其在依存句法分析、信息抽取等自然语言处理任务中经常用到。在开始标注之前，您需要了解：标注作业对应的“实体标签”和“关系标签”已定义好。“关系标签”需设置对应的“起始实体”和

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
扩缩容Standard专属资源池 - AI开发平台ModelArts

Size不一致，可能会使得部分任务在不同节点的运行情况不一致，请谨慎操作。存量节点不支持修改容器引擎空间大小。修改操作系统。在“操作系统”下拉列表中指定操作系统版本。指定节点计费模式。用户增加节点数量时，可以打开“节点计费模式”开关，为资源池新扩容的节点设置不同于资源池的计费

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
管理Lite Cluster资源池 - AI开发平台ModelArts

数较多。也可关闭系统默认绑核后，在业务容器中用taskset等方式进行灵活绑核。 Dropcache：开启后表示启用Linux的缓存清理功能，是一种应用性能调优手段，在大部分场景下可以提升应用性能。但是清除缓存也可能会导致容器启动失败或系统性能暂时下降（因为系统需要重新从磁盘加载

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

27，仅支持选择Containerd作为容器引擎。其余CCE集群版本，支持选择Containerd或Docker作为容器引擎。修改操作系统。在“操作系统”下拉列表中指定操作系统版本。修改驱动版本。在“驱动版本”下拉列表中指定驱动版本。指定节点计费模式。用户增加节点数量时，可以打开“节点计费

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Lite Server资源开通 - AI开发平台ModelArts

如果界面无可选规格，请联系华为云技术支持申请开通。系统盘系统盘和规格有关，选择支持挂载的规格才会显示此参数。可以在创建完成后在云服务器侧实现数据盘挂载或系统盘的扩容，建议取值至少100GB。表4 镜像配置参数说明参数名称说明镜像公共镜像常见的标准操作系统镜像，所有用户可见，包括操作系统以及预装的公共应

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
创建Standard专属资源池 - AI开发平台ModelArts

开启“节点高级配置”开关后，支持设置实例的操作系统。存储配置部分规格支持“存储配置”开关，该参数默认关闭。系统盘打开“存储配置”开关后，可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。部分规格没有携带系统盘，在创建专属资源池时支持设置系统盘的磁盘类型和大小。容器盘打开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
管理Notebook实例 - AI开发平台ModelArts

查找Notebook实例更新Notebook实例启动/停止/删除实例保存Notebook实例动态扩充云硬盘EVS容量动态挂载OBS并行文件系统查看Notebook实例事件 Notebook Cache盘告警上报父主题：使用Notebook进行AI开发调试

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
VS Code ToolKit连接Notebook - AI开发平台ModelArts

Code开发环境中显示Notebook实例详情页，单击“连接”，系统自动启动该Notebook实例并进行远程连接。图9 查看Notebook实例详情页第一次连接Notebook时，系统右下角会提示需要先配置密钥文件。选择本地密钥pem文件，根据系统提示单击“OK”。图10 配置密钥文件单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
Lite Server资源管理 - AI开发平台ModelArts

查看Lite Server服务器详情启动或停止Lite Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

对象存储服务提供按需计费和包年包月两种计费模式，用户可以根据实际需求购买OBS服务。 OBS服务支持以下两种存储方式，单机单卡场景使用文件系统，多机多卡场景使用普通OBS桶。创建普通OBS桶创建并行文件系统虚拟私有云VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境。通过打通专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

如果当前资源池的资源确实不够，也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容，请联系系统管理员。专属资源池扩容，可参考扩缩容资源池。如果磁盘空间不够，可以尝试重试，使实例调度到其他节点。如果单实例仍磁盘空间不足，请联系系统管理员，更换合适的规格。如果是大模型导入的模型部署服务，请确保专属资源池磁盘空间大于1T（1000GB）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
资源池监控 - AI开发平台ModelArts

于当前系统时间，则使用当前系统时间 durationInMinutes：查询时间的跨度分钟数。取值范围大于0并且大于等于(endTimeInMillis - startTimeInMillis) / (60 * 1000) - 1 当开始时间与结束时间都设置为-1时，系统会将结

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

硬件问题：如果GPU之间的NVLINK连接存在硬件故障，那么这可能会导致带宽受限。重新安装软件后，重启系统，可能触发了某种硬件自检或修复机制，从而恢复了正常的带宽。系统负载问题：最初测试GPU卡间带宽时，可能存在其他系统负载，如进程、服务等，这些负载会占用一部分网络带宽，从而影响NVLINK带宽的表

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

在创建AI应用页面，系统会自动根据上一步训练作业填写参数，参考如下说明确认关键参数。 “元模型来源”：系统自动选择“从训练中选择”。 “选择训练作业”：系统自动选择上一步创建的训练作业。 “AI引擎”：系统自动写入该模型的AI引擎，无需修改。 “推理代码”：系统自动放置推理代码到OBS输出路径，无需修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
查询服务详情 - AI开发平台ModelArts

mm:ss，UTC时间。 node_label String 节点标签。 os_type String 节点操作系统类型。 name String 边缘节点名称。 os_name String 节点操作系统名称。 arch String 节点架构。 id String 边缘节点ID。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后，单击右侧“重建”，重新创建训练作业，提交训练作业后等待作业完成。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。如果想构造nvidia-smi D+进程，可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性，如： #!/bin/bash while true; do nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1518

上一页
1
...
58
59
60
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建DevServer - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

人工标注文本数据 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

管理Notebook实例 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线