搜索_华为云

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

b的名字 namespace: default # 命名空间自选，需要和下边的vcjob处在同一命名空间 labels: ring-controller.cce: ascend-1980 # 保持不动 data:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

9-cp37-cp37m-manylinux1_x86_64.whl" } ] } ] 模型配置文件的“dependencies”支持多个“dependency”结构数组以list形式填入。示例如下： "dependencies": [ { "installer":

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
ModelArts的Notebook有代理吗？如何关闭？ - AI开发平台ModelArts

ModelArts的Notebook有代理吗？如何关闭？ Notebook有代理。执行env|grep proxy命令查询Notebook代理。执行unset https_proxy unset http_proxy命令关闭代理。父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
模型配置文件编写说明 - AI开发平台ModelArts

说明： “dependencies”参数支持多个“dependency”结构数组，以list格式填入，默认安装包存在先后依赖关系（即写在前面的先安装，写在后面的后安装），且支持线下wheel包安装（wheel包必须与模型文件放在同一目录）。示例请参考导入模型时安装包依赖配置文件如何书写？

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
查看训练作业日志 - AI开发平台ModelArts

513254-worker-0.log 单机训练作业只会生成一个日志文件，单机作业的task id默认为worker-0。分布式场景下有多个节点日志文件并存，通过task id区分不同节点，例如：worker-0，worker-1等。训练进程日志、“pip-requirement

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
约束与限制 - AI开发平台ModelArts

ModelArts不支持从加密的OBS桶中读取数据，创建OBS桶时，请勿开启桶加密。 ModelArts不支持跨区域访问OBS桶，请确保使用的OBS与ModelArts在同一区域。

帮助中心 > AI开发平台ModelArts > 产品介绍
创建开发环境实例 - AI开发平台ModelArts

链接仓库协议。当前支持：ssh，https。 url String 链接仓库地址。 credential Object 证书信息，请参见表30。表30 credential字段数据结构说明参数参数类型说明 ssh_private_key String ssh私有证书。 access_token

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
自定义镜像规范 - AI开发平台ModelArts

py”。仅支持shell脚本和python脚本。如果是SWR容器内的地址，则填写绝对路径；如果是AI Gallery仓库内的地址，则填写相对路径。 Infer_port 选填，推理服务提供的端口，缺省值为8080。只支持部署HTTP服务。自定义镜像可以通过是否上传自定义推理参数文件“gallery_inference/inference_params

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
批量更新样本标签 - AI开发平台ModelArts

坐标，第一个点y坐标一定小于第二个点的y坐标)。 polygon [[0,100],[50,95],[10,60],[500,400]] 多个点组成，按顺序连接成一个多边形。 circle [[100,100],[50]] 一个圆心点和半径组成。 line [[0,100],[50

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
批量更新团队标注样本的标签 - AI开发平台ModelArts

坐标，第一个点y坐标一定小于第二个点的y坐标)。 polygon [[0,100],[50,95],[10,60],[500,400]] 多个点组成，按顺序连接成一个多边形。 circle [[100,100],[50]] 一个圆心点和半径组成。 line [[0,100],[50

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

NGPUS_PER_NODE="$MA_NUM_GPUS" # self-define, it can be changed to >=10000 port MASTER_PORT="39888" # replace ${MA_JOB_DIR}/code/torch_ddp.py to the actutal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
VS Code连接开发环境失败故障处理 - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

NGPUS_PER_NODE="$MA_NUM_GPUS" # self-define, it can be changed to >=10000 port MASTER_PORT="38888" # replace ${MA_JOB_DIR}/code/torch_ddp.py to the actutal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用TMS标签实现资源分组管理 - AI开发平台ModelArts

资源类型：ModelArts支持查询的资源类型如表1所示。资源标签：不填写标签时，表示查询所有资源，无论此资源是否有配置标签。选择相应标签查询资源，用户可以通过多个标签组合查询资源使用情况。表1 ModelArts的资源类型资源类型说明 ModelArts-Notebook ModelArts的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

/sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data) sleep 300 y=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data) res=$(($y-$x)) echo

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
更新团队标注验收任务状态 - AI开发平台ModelArts

坐标，第一个点y坐标一定小于第二个点的y坐标)。 polygon [[0,100],[50,95],[10,60],[500,400]] 多个点组成，按顺序连接成一个多边形。 circle [[100,100],[50]] 一个圆心点和半径组成。 line [[0,100],[50

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
SFT全参微调训练 - AI开发平台ModelArts

集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 1018

上一页
1
...
26
27
28
...
51
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

ModelArts的Notebook有代理吗？如何关闭？ - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

批量更新样本标签 - AI开发平台ModelArts

批量更新团队标注样本的标签 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

VS Code连接开发环境失败故障处理 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

使用TMS标签实现资源分组管理 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

更新团队标注验收任务状态 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线