检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
说明查询修改 train_instance_count=1, # 节点数,适用于多机分布式训练,默认是1 #pool_id='若指定专属池,替换为页面上查到的poolId',同时修改资源规格为专属池专用的虚拟子规格
在“我的算法”列表,单击算法名称进入详情页,可以查看算法详细信息。 选择“基本信息”页签可以查看算法信息。 “基本信息”页签,单击“编辑”,支持修改除名称和ID之外的算法信息。修改完成,单击“保存”即可完成修改。 选择“训练列表”页签可以查看使用该算法的训练作业信息,例如训练作业名称、状态。 运行环境预览 创建算法时
夹下面 cd ./llm_train/AscendSpeed 编辑llm_train/AscendSpeed中的Dockerfile文件,修改git命令,填写自己的git账户信息。 git config --global user.email "you@example.com" &&
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个O
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个O
本文档提供的调测代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,只需要修改个别的参数即可。 DataParallel进行单机多卡训练的优缺点 代码简单:仅需修改一行代码。 通信瓶颈 :负责reducer的GPU更新模型参数后分发到不同的GPU,因此有较大的通信开销。
loud-LLM/llm_train/AscendSpeed 编辑llm_train/AscendSpeed中的Dockerfile文件,修改git命令,填写自己的git账户信息。 git config --global user.email "you@example.com" &&
下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。 chomd 755 /home/ma-user chomd 750 /home/ma-user 排查密钥是否是和实例绑定的一致。
log”中筛查,筛查关键字有:“[ModelArts Service Log]”或“Platform=ModelArts-Service”。 类型一:[ModelArts Service Log] xxx [ModelArts Service Log][init] download code_url:
见镜像地址获取。 docker pull {image_url} 步骤三:启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
见镜像地址获取。 docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
见镜像地址获取。 docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
安装模型运行环境 └── qwen-vl.patch # 使用git apply修改模型相关代码 父主题: 训练脚本说明
rl}参见表2 获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录"
像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下:
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据
"outputs" : [ { "name" : "service_output", "type" : "service", "config" : { "service_id" : "81f22d60-5488-4e3d-bba9-08c812ae84b0"
parquet 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/ws/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 SHELL_FOLDER
Integer 分页列表的起始页,默认为0。 order 否 String 排序方式。可选值如下: asc:递增排序 desc:递减排序(默认值) search_content 否 String 模糊匹配名称,默认为空。 sort_by 否 String 指定查询的排序方式。可选值如下: cr