检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Workflow中使用大数据能力(DLI/MRS) 功能介绍 该节点通过调用MRS服务,提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。 应用场景 需要使用MRS Spark组件进行大量数据的计算时,可以根据已有数据使用该节点进行训练计算。 使用案例 在华为云MR
方法2:使用ib_write_bw测试RDMA的读写处理确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B:客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits
标注人员管理 如果您创建的标注作业,开启了团队标注,“标注人员管理”页面中可查看团队标注作业的标注详情。添加、修改或删除标注成员。 登录“数据准备>数据标注”,在“我创建的”页签下可查看所有的标注作业列表。 在作业列表的“名称”列,根据标注作业名称找到对应的团队标注作业。(团队标注作业的名称后带有标识。)
如何用ModelArts训练基于结构化数据的模型? 针对一般用户,ModelArts提供自动学习的预测分析场景来完成结构化数据的模型训练。 针对高阶用户,ModelArts在开发环境提供创建Notebook进行代码开发的功能,在训练作业提供创建大数据量训练任务的功能;用户在开发、训练
数据并行非常适合大数据量的训练任务。 TP:tensor parallel 张量并行也叫层内并行,通过将网络中的权重切分到不同的设备,从而降低单个设备的显存消耗,使得超大规模模型训练成为可能。张量并行不会增加设备等待时间,除了通信代价外,没有额外代价。 PP:pipeline parallel
训练作业使用MoXing拷贝数据较慢,重复打印日志 问题现象 ModelArts训练作业使用MoXing拷贝数据较慢。 重复打印日志“INFO:root:Listing OBS”。 原因分析 拷贝数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭代缓慢。
Lite进行离线推理时,需要先将模型转换为mindir模型,再利用MindSpore Lite作为推理引擎,将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite工具。 Huggingface提供的onnx模型文件的输入是动态shape,而mindir
eed已原生支持NPU,可以直接在昇腾设备上运行。 代码迁移基础知识 PyTorch 2.1以下版本时,PyTorch官方并不直接支持昇腾的后端,仅直接支持CUDA和AMD ROCm,因此PyTorch在GPU上的训练代码无法直接在昇腾设备运行。PyTorch2.1版本提供了新硬
下载完成后,将数据上传至SFS相应目录中。由于数据集过大,推荐先通过obsutil工具将数据集传到OBS桶后,再将数据集迁移至SFS。 在本机机器上运行,通过obsutil工具将本地数据集传到OBS桶。 # 将本地数据传至OBS中 # ./obsutil cp ${数据集所在的本地文件夹路径}
ModelArts中创建的数据集,如何在Notebook中使用 ModelArts上创建的数据集存放在OBS中,可以将OBS中的数据下载到Notebook中使用。 Notebook中读取OBS数据方式请参见如何在Notebook中上传下载OBS文件?。 父主题: 更多功能咨询
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未
训练数据: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。
server(简称ps)和worker两种角色,ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用,因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”,实际下载的数据会翻倍。例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。
Notebook里面运行的实例,如果重启,数据集会丢失么? ModelArts提供的Notebook实例是以ma-user启动的,用户进入实例后,工作目录默认是“/home/ma-user/work”。 创建实例,“/home/ma-user/work”目录下挂载的数据,在实例停止、重新启动后依然保留,其他目录下的内容会还原。
【下线公告】华为云ModelArts服务旧版数据集下线公告 华为云计划于2024/10/31 00:00(北京时间)用AI开发平台ModelArts的新版数据集全面替代旧版数据集,旧版数据集正式下线。 下线范围 下线区域:华北-北京四(其他区域已下线) 受影响服务 ModelArts旧版数据集。 下线影响
检测和物品摆放的无人巡检。 预测分析 预测分析项目,是一种针对结构化数据的模型自动训练应用,能够对结构化数据进行分类或者数据预测。可用于用户画像分析,实现精准营销。也可应用于制造设备预测性维护,根据设备实时数据的分析,进行故障识别。 声音分类 声音分类项目,是识别一段音频中是否包
使用ma-cli obs-copy命令复制OBS数据 使用ma-cli obs-copy [SRC] [DST]可以实现本地和OBS文件或文件夹的相互复制。 $ma-cli obs-copy -h Usage: ma-cli obs-copy [OPTIONS ] SRC
考 《主流开源大模型基于DevServer适配PyTorch NPU训练指导》,该案例以ChatGLM-6B为例,介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。 父主题: GPU训练业务迁移至昇腾的通用指导
简介 场景介绍 本文旨在指导客户将已有的推理业务迁移到昇腾设备上运行(单机单卡、单机多卡),并获得更好的推理性能收益。 ModelArts针对上述使用场景,在给出系统化推理业务昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的No
idia-fabricmanager.servcie不工作: 可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。 处理方法 若未安装fabricmanager,则需安装改组件。