搜索_华为云

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。处理方法可以参考官方文档，如下： """run.py:""" #!/usr/bin/env python import os import torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

重复打印日志，该日志表示正在读取远端存在的文件，当文件列表读取完成以后，开始下载数据。如果文件比较多，那么该过程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

当数据集存在较多数据文件（即海量小文件），数据存储在OBS中，训练过程需反复从OBS中读取文件，导致训练过程一直在等待文件读取，效率低。解决方法建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。训练时，可直接从OBS下载此压缩文件至/ca

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
停止训练作业版本 - AI开发平台ModelArts

stop 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
批量重启节点 - AI开发平台ModelArts

es/batch-reboot 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。请求参数表2 请求Body参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

LD_LIBRARY_PATH=/usr/local/cuda/compat 训练时默认不需要加此环境变量，仅当发现驱动版本不够时才使用此方法。专属池驱动版本如何升级？当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
创建训练作业 - AI开发平台ModelArts

训练作业一直在等待中（排队）？创建训练作业时，超参目录为什么有的是/work有的是/ma-user？在ModelArts创建分布式训练时如何设置NCCL环境变量？在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
如何在Notebook中上传下载OBS文件？ - AI开发平台ModelArts

或者下载OBS中的文件至Notebook中。图1 Notebook中上传下载OBS文件使用OBS客户端上传文件的操作指导：上传文件方法一：在Notebook中通过Moxing上传下载OBS文件 MoXing是ModelArts自研的分布式训练加速框架，构建于开源的深度学习

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载
训练的权重转换说明 - AI开发平台ModelArts

Face 转 Megatron格式，以及Megatron 转 Hugging Face格式，而脚本使用hf2hg、mg2hf参数传递来区分。方法一：用户可打开scripts/llama2/2_convert_mg_hf.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
查询Workflow待办事项 - AI开发平台ModelArts

描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
创建图像分类项目 - AI开发平台ModelArts

操作列：默认为关闭状态，启用此能力可让操作列固定在最后一列永久可见。自定义显示列：默认所有显示项全部勾选，您可以根据实际需要定义您的显示列。图1 表格显示设置单击“确定”即可按照设置好的显示列进行显示。同时可支持对自动学习项目显示页进行排序，单击表头中的箭头，就可对该列进行排序。父主题：使用自动学习实现图像分类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
创建预测分析项目 - AI开发平台ModelArts

操作列：默认为关闭状态，启用此能力可让操作列固定在最后一列永久可见。自定义显示列：默认所有显示项全部勾选，您可以根据实际需要定义您的显示列。图1 表格显示设置单击“确定”即可按照设置好的显示列进行显示。同时可支持对自动学习项目显示页进行排序，单击表头中的箭头，就可对该列进行排序。父主题：使用自动学习实现预测分析

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

resource_requirements 否 Array of ResourceRequirement objects 算法资源约束。可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建团队标注任务 - AI开发平台ModelArts

“名称”：设置此任务的名称。 “标注场景”：选择标注作业的任务类型。 “标签集”：展示当前数据集已有的标签及标签属性。 “启用团队标注”：选择打开，并配置如下团队标注相关参数。 “类型”：设置任务类型，支持“指定标注团队”或“指定标注管理员”。 “选择标注团队”：任务类型设置为“指定

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

在“专属资源池扩缩容”页面，设置“资源配置 > 可用区”，可用区可选择“随机分配”和“指定AZ”。选择随机分配时，扩缩容完成后，节点的可用区分布由系统后台随机选择。选择指定AZ时，可指定扩缩容完成后节点的可用区分布。修改容器引擎空间大小扩容资源池时，可以设置新建节点的容器引擎空间

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
创建声音分类项目 - AI开发平台ModelArts

操作列：默认为关闭状态，启用此能力可让操作列固定在最后一列永久可见。自定义显示列：默认所有显示项全部勾选，您可以根据实际需要定义您的显示列。图1 表格显示设置单击“确定”即可按照设置好的显示列进行显示。同时可支持对自动学习项目显示页进行排序，单击表头中的箭头，就可对该列进行排序。父主题：使用自动学习实现声音分类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
部署推理服务 - AI开发平台ModelArts

PTA_TORCHAIR_DECODE_GEAR_LIST=2,4,6,8,16,32 # 设置动态分档的挡位，根据实际情况设置，另外请不要设置挡位1 export VLLM_ENGINE_ITERATION_TIMEOUT_S=900 # 设置vllm请求超时时间图模式主要针对小模型的场景，可减少算子下发的瓶颈，目前仅针对Qwen2-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
更新训练作业描述 - AI开发平台ModelArts

fourth") 参数说明表1 Estimator请求参数说明参数是否必选参数类型描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
启动停止边缘节点服务实例 - AI开发平台ModelArts

node_id}/status 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 node_id 是 String 边缘节点ID。在IEF上创建边缘节点后可得到。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询标注团队详情 - AI开发平台ModelArts

/{workforce_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_id 是 String 标注团队ID。请求参数无响应参数状态码： 200 表2 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1389

上一页
1
...
49
50
51
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

停止训练作业版本 - AI开发平台ModelArts

批量重启节点 - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

如何在Notebook中上传下载OBS文件？ - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

查询Workflow待办事项 - AI开发平台ModelArts

创建图像分类项目 - AI开发平台ModelArts

创建预测分析项目 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

创建声音分类项目 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

查询标注团队详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线