检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
编辑llm_train/AscendSpeed中的Dockerfile文件第一行镜像地址,修改为本文档中的基础镜像地址。 FROM {image_url} (选填)编辑llm_train/AscendSpeed中的Dockerfile文件,修改git命令,填写自己的git账户信息。 git config --global
添加自定义提供方参数说明 参数 说明 API模式 默认为“OpenAI API兼容” 。 名称 填写“ModelArts Studio”,您可以自定义修改。 API域名 步骤二.2获取的API地址,需要去掉地址尾部的“/chat/completions” 后填入。 API路径 默认为“/chat/completions”
因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 404 NotFound 所请求的资源不存在。 建议直接修改该请求,不要重试该请求。 405 MethodNotAllowed 请求中带有该资源不支持的方法。 建议直接修改该请求,不要重试该请求。 406 Not
案例中从Gallery下载的数据集。单击图标选择您的OBS桶下的任意一处目录,但不能与输出位置为同一目录。 名称:默认自动生成,也可自定义修改。 描述:数据集信息描述。 单击“确定”,跳转至“我的数据 > 我的下载”页签,等待下载完成(下载完成大概5分钟左右,请您耐心等待)。 图2
练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“标签”页签查看标签信息。 支持添加、修改、删除标签。标签详细用法请参见使用TMS标签实现资源分组管理。 图1 查看训练标签 最多支持添加20个标签。 父主题: 管理模型训练作业
头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 如果您的原始表格中没有表头,需关闭“导入是否包含表头”开关,从OBS选择数据后,Schema信息的列名默认为表格中的第一行数据,请更改Schema信息中的“列名”为attr_1、attr_2、……
Name" && \ 若要对ChatCLMv3、GLMv4系列模型进行训练时,需要修改 Dockerfile 中的 transformers 的版本。 由默认 transformers==4.47.0 修改为:transformers==4.44.2 执行以下命令制作训练镜像。安装过程需要连接互联网git
资源配置(单节点方式) 修改容器引擎空间大小 扩容资源池时,可以设置新建节点的容器引擎空间大小。此操作会导致资源池内该规格下节点的dockerBaseSize不一致,可能会使得部分任务在不同节点的运行情况不一致,请谨慎操作。存量节点不支持修改容器引擎空间大小。 修改操作系统。在“操作系统”下拉列表中指定操作系统版本。
n.sh”即为2修改的训练启动脚本。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: yourvcjobname # job名字,根据实际场景修改 namespace:
1*Tnt004(16GB)|CPU: 8核 32GB规格。 修改Notebook SSH远程连接配置 ModelArts允许用户在Notebook实例中更改SSH配置信息,Notebook实例状态需在“停止”时才可以修改。 在创建Notebook实例时,未配置SSH远程连接,创建
超过1T。您可以通过专属资源池详情页面,规格页签,查看专属资源池磁盘信息。当服务部署失败,提示磁盘空间不足时,请参考服务部署、启动、升级和修改时,资源不足如何处理? 图2 查看专属资源池磁盘信息 创建模型 使用大模型创建模型,选择从对象存储服务(OBS)中导入,需满足以下参数配置:
_type字段未填写,则表示默认使用"TensorFlow"。 如果您构建的工作流对注册的模型类型没有修改的需求,则按照上述示例使用即可。 如果您构建的工作流需要多次运行可以修改模型类型,则可使用占位符参数的方式进行编写: model_type = wf.Placeholder(
成验收,此时不允许发起新的验收任务,只能继续完成当前验收任务。 3:通过。团队标注任务已完成。 4:驳回。manager再次启动任务,重新修改标注和审核工作。 5:验收结果同步中。验收任务改为异步,新增验收结果同步中的状态,此时不允许发起新的验收任务,也不允许继续当前验收,任务名称的地方提示用户同步中。
导致镜像保存失败。 如使用的是专属资源池,可尝试在“专属资源池>弹性集群”页面按需调整容器引擎空间大小,具体步骤请参考扩缩容专属资源池的“修改容器引擎空间大小”。 如果问题仍未解决,请联系技术支持。 前提条件 Notebook实例状态为“运行中”。 保存镜像 在Notebook列
导致镜像保存失败。 如使用的是专属资源池,可尝试在“专属资源池>弹性集群”页面按需调整容器引擎空间大小,具体步骤请参考扩缩容专属资源池的“修改容器引擎空间大小”。 如果问题仍未解决,请联系技术支持。 前提条件 Notebook实例状态为“运行中”。 保存镜像 在Notebook列
install -r requirements.txt && /bin/sh tools/run.sh Notebook中调试完后,如果镜像有修改,可以保存镜像用于后续训练,具体操作请参见保存Notebook镜像环境。 父主题: 单机多卡
主机用root权限执行命令进行修改 docker exec -u root:root 39c9ceedb1f6 bash -c "chown -R ma-user:ma-user /cache" 针对调试中遇到的错误,可以直接在容器实例里修改,修改结果可以通过commit命令持久化。
str四种类型 ] ), # 训练使用的算法对象,示例中使用AIGallery订阅的算法;部分算法超参的值如果无需修改,则在parameters字段中可以不填写,系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url"
填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 图1 创建数据处理基本信息 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。
Terminated:已停止 Abnormal:异常 secondary_phase String 训练作业二级状态为内部详细状态,可能会增加、修改、删除,不建议依赖。可选值如下: Creating:创建中 Queuing:排队中 Running:运行中 Failed:运行失败 Completed:已完成