检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备权重 获取对应模型的权重文件,获取链接参考表1。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件
理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。其中Containerd调用链更短,组件更少,更稳定,占用节点资源更少,Containerd和Docker差异对比请见容器引擎。 若CCE集群版本低于1
Cluster资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 资源池驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,选择需要进行驱动升级的资源池“
使用Notebook进行代码调试 背景信息 Notebook使用涉及到计费,具体收费项如下: 处于“运行中”状态的Notebook,会消耗资源,产生费用。根据您选择的资源不同,收费标准不同,价格详情请参见产品价格详情。当您不需要使用Notebook时,建议停止Notebook,避免产生不必要的费用。
据集上进行了训练,直接运行一个预训练好的GPT-2模型:给定一个预定好的起始单词或者句子,可以让它自行地随机生成后续的文本。 环境准备 在华为云ModelArts Server预购相关超强算力的GPU裸金属服务器,并选择AIGC场景通用的镜像,完成使用Megatron-DeepS
大量数据文件,训练过程中读取数据效率低? 当数据集存在较多数据文件(即海量小文件),数据存储在OBS中,训练过程需反复从OBS中读取文件,导致训练过程一直在等待文件读取,效率低。 解决方法 建议将海量小文件,在本地压缩打包。例如打包成.zip格式。 将此压缩后的文件上传至OBS。
调用API提交训练作业后,能否绘制作业的资源占用率曲线? 调用API提交训练作业后,您可登录ModelArts控制台,在“模型训练 > 训练作业”中,单击“名称/ID”进入“训练作业详情”页面的“资源占用情况”模块,查看作业的资源占用率曲线。 父主题: API/SDK
selected and the file permission is correct. You can view the instance keypair information on ModelArts console.” 原因分析 可能是密钥文件或放置密钥的文件夹权限问题,密钥不正确等,请按以下步骤排查。
场景介绍及环境准备 场景介绍 DiT(Diffusion Transformers)模型是一种将Transformer架构引入扩散模型的新方法。传统的扩散模型通常使用U-Net架构,而DiT模型则用Transformer替代了U-Net,处理图像生成和去噪等任务。核心思想是通过T
Loss对齐结果 在排查完精度偏差来源之后发现,Loss最大绝对偏差减少为0.0003,Loss结果对齐。 需要注意训练引入随机性的目的是为了增加结果的鲁棒性,理论上不会对训练模型的收敛与否造成影响。 此处做随机性固定主要的目的是为了训练结果可完全复现,从而实现NPU和标杆的精度对齐。
44 train_samples = 1649399 train_samples_per_second = 12.61 train_steps_per_second = 0.012 算子调优后结果: ***** train metrics
释放Standard专属资源池和删除网络 删除资源池 当AI业务开发不再需要使用专属资源池时,您可以删除专属资源池,释放资源。 专属资源池删除后,将导致使用此资源的开发环境、训练作业和推理服务等不可用,且删除后不可恢复,请谨慎操作。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据
从MRS导入数据到ModelArts数据集 ModelArts支持从MRS服务中导入存储在HDFS上的csv格式的数据,首先需要选择已有的MRS集群,并从HDFS文件列表选择文件名称或所在目录,导入文件的列数需与数据集schema一致。MRS的详细功能说明,请参考MRS用户指南。
如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题? 问题现象 在IOS系统里打开ModelArts的Notebook时,字体显示异常。 解决方法 设置Terminal的“fontFamily”为“Menlo”。 操作步骤 登录ModelArt
可以两个账号同时进行一个数据集的标注吗? 可以多人同时标注,但多人同时对同一张图片标注的话,只会以最后一个保存的人的标注结果为最终标注结果。建议轮流标注并及时保存标注结果。 父主题: Standard数据管理
置训练的输出参数名称(一般设置为“train_url”),以及输出数据的存储位置。 训练作业运行成功之后,在训练作业列表中,您可以单击作业名称,查看该作业的详情。在“日志”页签搜索输入输出参数名称获取参数信息。 如果需在训练中获取“train_url”、“data_url”和“t
在ModelArts创建分布式训练时如何设置NCCL环境变量? ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX
nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态,尝试重新启动nvidia-fabricmanager失败,且提示以下信息: nvidia-fabricmanager.service failed because the control process
使用python3.6-torch1.4版本镜像环境安装MMCV报错 问题现象 日志报错中存在AssertionError: MMCV==1.2.5 is used but incompatible. Please install mmcv>=1.3.1, <=1.5.0。 原因分析