检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
#检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
limit 否 String 分页参数limit,表示单次查询的条目数上限。假如要查询20~29条记录,offset为20,limit为10。 offset 否 String 分页参数offset,表示单次查询的条目偏移数量。假如要查询20~29条记录,offset为20,limit为10。
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3。
日志”支持简单查询。 如果开启此功能,批量服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。 LTS服务提供的日志查询和日志存储功能涉
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
文件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
it”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。 如果下载报错“Not Found”,请下载别的版本VS
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
文件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下代码信息进行查找,修改后如图2所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
件chatglm3-6b/tokenization_chatglm.py 。 文件最后几处代码中需要修改,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图2 修改ChatGLMv3-6B tokenizer文件 图3 修改ChatGLMv3-6B tokenizer文件
配额管理 查询OS的配额
customize_service.py依赖的其他文件可以直接放model目录下,需要采用绝对路径方式访问。绝对路径获取请参考绝对路径如何获取。 ModelArts针对多种引擎提供了样例及其示例代码,您可以参考样例编写您的配置文件和推理代码,详情请参见ModelArts样例列
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。 表2 调用训练接口失败响应参数 参数 类型 描述 error_msg
timeout = 120 在华为开源镜像站https://mirrors.huaweicloud.com/home中,搜索pypi,可以查看pip.conf文件内容。 参考如下Dockerfile文件内容来基于ModelArts提供的训练基础镜像来构建一个新镜像。将编写好的Do
示例: "modelarts:notebook:list":表示查看Notebook实例列表权限,其中modelarts为服务名,notebook为资源类型,list为操作。 您可以在对应服务“API参考”资料中查看该服务所有授权项。 Condition:条件 使策略生效的特定条件,包括条件键和运算符。
3指使用0-3卡执行训练任务。 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考 附录:训练常见问题解决。