检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendFactory代码目录。
400 ModelArts.4314 Obs error 访问OBS时由于用户鉴权或者路径无效等导致的OBS访问错误 请检查用户访问OBS的权限或者OBS路径相关的参数。 400 ModelArts.4315 Invalid OBS path. OBS路径无效 数据url不应包含// 400
se。 处理方法 获取一个OBS文件夹的大小: import moxing as mox mox.file.get_size('obs://bucket_name/sub_dir_0/sub_dir_1', recursive=True) 获取一个OBS文件的大小: import
在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。 以下为使用EVS挂载的开发环境,将数据复制至notebook中的代码示例:
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成
mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training
Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买Lite Server资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买Lite Server资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买Lite Server资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
file.copy_parallel(src_obs_dir=input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), mox这个函数怎么定义以变量的形式填写OBS路径? 解决方案 变量定义参考如下示例: input_storage
创建导出任务 将当前数据集的样本导出到指定的OBS路径下。仅支持图像分类、物体检测、图像分割和自由格式数据集。 dataset.export_data(path) 示例代码 导出数据集到OBS目录 from modelarts.session import Session from
在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结
est格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。 进入OBS管理控制台,根据上述步骤获得的路径,找到
mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training
在运行finetune_ds.sh 时遇到报错 在运行finetune_ds.sh 时遇到报错 pydantic_core._pydantic_core.ValidationError: 1 validation error for DeepSpeedZeroConfig sta
删除镜像 功能介绍 删除镜像对象,对于个人私有镜像可以通过参数一并删除SWR镜像内容。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE
modelarts import workflow as wf # 通过ReleaseDatasetStep将输入的数据集对象发布新的版本,输出带有版本信息的数据集对象 # 定义数据集对象 dataset = wf.data.DatasetPlaceholder(name="input_dataset")
标注页面,数据标注的图片来源有两种,通过本地添加图片和同步OBS中的图片数据。 图3 添加本地图片 图4 同步OBS图片数据 添加数据:您可以将本地图片快速添加到ModelArts,同时自动上传至创建项目时所选择的OBS路径中。单击“添加数据”,根据弹出的对话框的引导,输入正确的数据并添加。
在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结