检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 global-batch-size 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
针对这个问题,有两种情况: 如果您创建的Notebook使用OBS存储实例时 单击“upload”后,数据将直接上传到该Notebook实例对应的OBS路径下,即创建Notebook时指定的OBS路径。 如果您创建的Notebook使用EVS存储实例时 单击“upload”后,数据将直接上传至当
用户项目ID,获取方法请参见获取项目ID和名称。 storage_id 是 String OBS存储ID。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 category String 存储类型。可选值为OBS。 id String 动态挂载实例ID。 mount_path
采集时会先跳过前10个step(从step0开始)。然后完整的一次采集过程包括等待3个step,预热1个step和连续采集3个step(step14-step16)的profiling数据。这一次采集的step14-step16的profiling数据会保存在同一个json文件中。由
的镜像制作,而原来的镜像层数是无法改变的,层不变的情况下,大小是不变的,卸载包或者删除数据集,会新增镜像层,镜像反而会变大,这和传统概念的存储不一样。 父主题: Standard镜像相关
支持的rope scaling类型 本方案支持的rope scaling类型包括linear、dynamic和yarn,其中linear方法只支持传入一个固定的scaling factor值,暂不支持传入列表。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.907中的AscendCloud-LLM-xxx
导出方式选择“OBS”,填写相关信息,然后单击“确定”,开始执行导出操作。 “保存路径”:即导出数据存储的路径。建议不要将数据存储至当前数据集所在的输入路径或输出路径。 图12 导出至OBS 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。 查看任务历史 当您导出数据后,可以通过任务历史查看导出任务明细。
AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description String 该镜像所对应的描述信息,长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。
描述 name 否 String 工作流存储的名称。填写1-64位,只包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 type 否 String 工作流存储的类型,当前只支持obs。 path 否 String 统一存储的根路径,当前只支持OBS路径。 表15
MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS的文件进行同步,使用JupyterLab文件上传下载功能。Terminal的文件与JupyterLab目录的文件相同。 挂载EVS存储的Notebook,JupyterLab
创建训练任务 调试代码 创建训练任务之前,建议先调试代码。 由于Notebook的/cache目录只能支持500G的存储,超过后会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用No
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 Snt9B Snt9C GPU: RoCE网卡配置错误 Gp
进入OBS管理控制台,根据上述步骤获得的路径,找到对应版本号目录,即可获取数据集对应的标注结果。 如需将标注结果下载至本地,可前往manifest文件存储的OBS中,单击“下载”,即可将标注结果存储至本地。 图1 下载标注结果 父主题: Standard数据准备
络配置,此处需要授予用户VPC权限。 (可选)配置SFS和SFS Turbo权限。如果用户在专属资源池中挂载SFS系统作为开发环境或训练的存储时,需要授予使用权限。 单击左上角的“查看已选”,确认已勾选的权限。 再单击“下一步”,设置最小授权范围。单击“指定区域项目资源”,勾选待授权使用的区域,单击“确定”。
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
云硬盘EVS是Notebook开发环境内存的存储硬盘,作为持久化存储挂载在/home/ma-user/work目录下,该目录下的内容在实例停止后会被保留。可以自定义磁盘空间,如果需要存储数据集、模型等大型文件,建议申请规格300GB+。存储支持在线按需扩容。 图2 自定义存储配置 使用Notebook将OBS数据导入云硬盘EVS