检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上 各GPU上的模型进行前向传播,得到输出 主GPU(逻辑序号为0)收集各GPU的输出,汇总后计算损失 分发损失,各GPU各自反向传播梯度 主GPU收集梯度并更新参数
keep_last_dir 否 Boolean 默认为True,复制文件夹时是否将源文件夹最后一级目录复制至目的文件夹下,仅对文件夹复制有效。 表2 失败相应说明 参数 参数类型 描述 error_code String 调用失败时的错误码。调用成功时无此字段。
internvl2和minicpmv需要传入,参考离线推理脚本examples/offline_inference_vision_language.py的stop_token_ids。 父主题: 推理关键特性使用
替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下: 复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory
替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下: 复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory
以下服务启动介绍的是在线推理方式,离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart.html#offline-batched-inference。
请减少数据量、减少batch_size,优化代码,合理聚合、复制数据。 请注意,数据文件大小不等于内存占用大小,需仔细评估内存使用情况。 退出码139 请排查安装包的版本,可能存在包冲突的问题。 排查办法 根据错误信息判断,报错原因来源于用户代码。
在ModelArts中使用Moxing复制数据时如何定义路径变量? 在ModelArts上如何创建引用第三方依赖包的训练作业? 在ModelArts训练时如何安装C++的依赖库? 在ModelArts训练作业中如何判断文件夹是否复制完毕?
“镜像复制” 镜像复制开关,选择是否将容器镜像中的模型镜像复制到ModelArts中。 关闭时,表示不复制模型镜像,可极速创建模型,更改或删除SWR源目录中的镜像会影响服务部署。 开启时,表示复制模型镜像,无法极速创建模型,SWR源目录中的镜像更改或删除不影响服务部署。
替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下: 复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令: 进入{work_dir}/...........
替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下: 复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory
数据集复制有两种方式,推荐使用OBS路径复制。 OBS路径(推荐) 直接使用moxing的copy_parallel接口,复制对应的OBS路径。
因此,可以在训练过程中将数据从OBS复制到“/cache”目录,然后每次从“/cache”目录读取数据,直到训练结束。训练结束以后“/cache”目录的内容会自动被清空。 优化方式 以TensorFlow代码为例。
替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下: 复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory
替换文件{work_dir}/tokenizers/falcon-11B/config.json,具体步骤如下: 复制代码包目录下config.json至falcon-11B的tokenizer目录下,样例命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory
在资源详情页,切换到“规格”页签,在规格列表中复制“计量ID”。 图5 复制计量ID 进入“费用中心 > 流水和明细账单”页面。 选择“明细账单”,在账单列表中,在筛选条件中选择“资源ID”,并输入2复制的计量ID,单击图标即可搜索该资源的账单。
图3 运行示例 复制数据到OBS 在Notebook的在JupyterLab的服务界面,将文件yolov8_train_ascend.zip,复制到已有的OBS桶中,示例代码如下。
硬盘限制故障 下载或读取文件报错,提示超时、无剩余空间 复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device
读取文件报错,您可以使用Moxing将数据复制至容器中,再直接访问容器中的数据。
复制镜像URL,可以在ModelArts控制台“镜像管理”注册并使用该镜像。 父主题: 订阅使用