检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。 数据集标注结果文件大小限制:100MB。 前提条件 数据集功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据集功能之前,请前往“权限管理”页面,使用委托完成访问授权。 已创建用于存储
命名一个组织名称。后续所有命令中使用到组织名称deep-learning时,均需要替换为此处实际创建的组织名称。 单击右上角“登录指令”,获取登录访问指令。 以root用户登录ECS环境,输入登录指令。 图1 在ECS中执行登录指令 Step2 上传镜像到SWR 此小节介绍如何上传镜像至容器镜像服务SWR的镜像仓库。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
的num_layers改为1即可。 --basepath str LLM原始模型权重地址 --bs int 训练模型的batch 其中,要获取模型config文件, 首先到https://github.com/SafeAILab/EAGLE/页找到对应Eagle模型地址。 图1 EAGLE
是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 version_id 是 String 数据集版本ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数
训练作业结束后,其生成的模型存储在OBS中,创建模型时,从OBS中导入已有的模型文件。 部署上线 将存储在OBS中的模型部署上线。 全局配置 - 获取访问授权(使用委托或访问密钥授权),以便ModelArts可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 ModelArts使用云硬盘服务(Elastic
训练作业结束后,其生成的模型存储在OBS中,创建AI应用时,从OBS中导入已有的模型文件。 部署上线 将存储在OBS中的模型部署上线。 全局配置 - 获取访问授权(使用委托或访问密钥授权),以便ModelArts可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 ModelArts使用云硬盘服务(Elastic
mpare。基本步骤如下: 通过pip安装msprobe工具。 # shell pip install mindstudio-probe 获取NPU和GPU的dump数据。 PyTorch训练脚本插入dump接口方式如下: from msprobe.pytorch import PrecisionDebugger
于问题定位分析,因此需要您提供AK/SK给华为云技术支持,用于授权认证。 约束限制 当前仅支持在贵阳一、乌兰察布一使用该功能。 操作步骤 获取AK/SK。该AK/SK用于后续脚本配置,做认证授权。 如果已生成过AK/SK,则可跳过此步骤,找到原来已下载的AK/SK文件,文件名一般为:credentials
添加。 仅支持16bit WAV格式音频文件,单个音频文件不能超过4MB,且单次上传的音频文件总大小不能超过8MB。 数据源同步:为了快速获取用户OBS桶中最新音频,单击“数据源同步”,快速将通过OBS上传的音频数据添加到ModelArts。 删除音频:您可以依次单击选中音频,或
/etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward Step2 获取基础镜像 建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。 docker pull {image_url} Step3 上传代码包和权重文件 上
无需使用时及时删除Token,避免信息泄露。 图3 克隆GitHub的私有仓库(目前只支持Personal Access Token授权) 图4 获取Personal Access Token 查看代码库信息 在Name下方列表中,选中您希望使用的文件夹,双击打开,然后单击左侧git插件图标进入此文件夹对应的代码库。
BS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。 进入OBS管理控制台,根据上述步骤获得的路径,找到对应版本号目录,即可获取数据集对应的标注结果。
支持公共镜像和自定义镜像。 公共镜像:即预置在ModelArts内部的AI引擎。 可以选择界面显示的公共镜像,也可以单击“前往AI Gallery获取更多镜像”进入AI Gallery镜像页面。AI Gallery上发布了一些较高版本的PyTorch、MindSpore、TensorFlow镜像。进入AI
n_id}/actions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
精度问题概述 随着ChatGPT的推出,大模型迅速成为AI界热点。大模型训练需要强大的算力支撑,涉及数据、模型、框架、算子、硬件等诸多环节。由于规模巨大,训练过程复杂,经常出现loss不收敛的情况(模型精度问题),主要表现为loss曲线起飞或者毛刺等,且模型的下游任务评测效果变差
是否使用昇腾 (CANN版本) URL 包含的依赖项 Tensorflow 1.15 是 (CANN 5.1) swr.{region-id}.{局点域名}/atelier/ tensorflow_1_15_ascend:tensorflow_1.15-cann_5.1.0-py_3.7-euler_2
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。