搜索_华为云

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错问题现象使用kv_store = mxnet.kv.create('dist_async')方式创建“kvstore”时程序被阻塞。如，执行如下代码，如果无法输出“end”，表明程序阻塞。 print('start') kv_store

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询团队标注任务详情 - AI开发平台ModelArts

允许发起新的验收任务，只能继续完成当前验收任务。 3：通过。团队标注任务已完成。 4：驳回。manager再次启动任务，重新修改标注和审核工作。 5：验收结果同步中。验收任务改为异步，新增验收结果同步中的状态，此时不允许发起新的验收任务，也不允许继续当前验收，任务名称的地方提示用户同步中。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

选择随机分配时，扩缩容完成后，节点的可用区分布由系统后台随机选择。选择指定AZ时，可指定扩缩容完成后节点的可用区分布。修改容器引擎空间大小扩容资源池时，可以设置新建节点的容器引擎空间大小。此操作会导致资源池内该规格下节点的dockerBaseSize不一致，可能会使得部分任务在不同节点的运行情况不

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
ECS中构建新镜像（可选） - AI开发平台ModelArts

40606 记住使用Dockerfile创建的新镜像名称，后续使用 ${dockerfile_image_name} 进行表示。 Step2 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
数据标注场景介绍 - AI开发平台ModelArts

智能标注：在标注一定量的数据情况下，用户可以通过启动智能标注任务对数据进行自动标注，提高标注的效率。团队标注：对于大批量的数据，用户可以通过创建团队标注作业，进行多人协同标注。人工标注对于不同类型的数据，用户可以选择不同的标注类型。当前ModelArts支持如下类型的标注作业：图片

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
配置Lite Cluster网络 - AI开发平台ModelArts

本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
（可选）配置驱动 - AI开发平台ModelArts

（可选）配置驱动当专属资源池中的节点含有GPU/Ascend资源时，为确保GPU/Ascend资源能够正常使用，需要配置好对应的驱动。 Cluster支持两种配置驱动的方式：方式一：购买资源池时通过自定义驱动参数进行配置方式二：通过驱动升级功能对已有的资源池驱动版本进行升级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description String 该镜像所对应的描述信息，长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下： NOTEBOOK：镜像支持通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询镜像详情 - AI开发平台ModelArts

AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description String 该镜像所对应的描述信息，长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下： NOTEBOOK：镜像支持通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
AI开发基本流程介绍 - AI开发平台ModelArts

如，图像分类、物体检测等等。不同的项目对数据的要求，使用的AI开发手段也是不一样的。准备数据数据准备主要是指收集和预处理数据的过程。按照确定的分析目的，有目的性的收集、整合相关数据，数据准备是AI开发的一个基础。此时最重要的是保证获取数据的真实可靠性。而事实上，不能一次性将

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

原因分析出现该问题的可能原因如下：用户的自定义镜像中无ascend_check工具，导致启动预检失败。用户的自定义镜像中的ascend相关工具不可用，导致预检失败。处理方法通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
数据处理场景介绍 - AI开发平台ModelArts

东-上海一、华南-广州。 ModelArts平台提供的数据处理功能，基本目的是从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。当数据采集和接入之后，数据一般是不能直接满足训练要求的。为了保障数据质量，以免对后续操作（如数据标注、模型训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？如果您的自定义镜像涉及NCCL、CUDA、OFED等软件库，当您制作自定义镜像时，您需要确保镜像中的软件库和ModelArts的软件库相匹配。您镜像中的软件版本需要满足以下要求： NCCL版本 ≥ 2.7.8。 OFED版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
最新动态 - AI开发平台ModelArts
最新动态 - AI开发平台ModelArts

本文介绍了ModelArts各特性版本的功能发布和对应的文档动态，新特性将在各个区域（Region）陆续发布，欢迎体验。 2023年8月序号功能名称功能描述阶段相关文档 1 Notebook连接大数据服务特性介绍如何将ModelArts Notebook开发环境与华为云大数据服务DLI中的Spar

帮助中心 > AI开发平台ModelArts > 最新动态
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

解决方法在遇到资源不足的情况时，ModelArts会进行三次重试，在服务重试期间，如果有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

本地系统为Linux，由于使用root用户安装VS Code，打开VS Code显示信息It is not recommended to run Code as root user 解决方法二请使用非root用户安装VS Code后，回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选）本章节主要介绍通过DockerFile文件构建训练镜像，将训练过程中依赖包封装使用，过程中需要连接互联网git clone，请确保环境可以访问公网，详解操作如下：进入代码包Dockerfile文件同级目录： cd /home/ma-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

原因分析因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。解决方法对于GP Vnt1的显卡，GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70]，设置setup.py中的编译参数即可解决。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练Llama2-13B模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作

总条数： 2629

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

查询团队标注任务详情 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

ECS中构建新镜像（可选） - AI开发平台ModelArts

数据标注场景介绍 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

数据处理场景介绍 - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

最新动态 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线