检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 请求示例 如下以修改“job_id”为10的作业描述为例。 PUT https://endpoint/v1/{project_id}/training-jobs/10
在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。 父主题: 业务代码问题
ecified max_model_len is greater than the drived max_model_len。 解决方法:修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config
-b 128 --epochs 5 dog_cat_1w/ 此处的“demo”为用户自定义的OBS存放代码路径的最后一级目录,可以根据实际修改。 资源池:在“专属资源池”页签选择GPU规格的专属资源池。 规格:选择单GPU规格。 单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”。
Code Directory 训练代码目录,系统会自动填写为训练启动文件所在的目录,用户可根据需要修改,所选目录必须是当前工程中的目录且包含启动文件。 当算法来源为自定义镜像,训练代码已预置在镜像中时,该参数可以为空。 Image Path(optional) SWR镜像的URL地址,例如swr
hmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导
hmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导
在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR: docker tag ${dockerfile_image_name}
像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转
pull、apt-get update/upgrade和pip install命令判断是否可正常访问外部可用的开源软件仓库,若可以正常访问表示环境已连接外部网络。 上述的虚拟机或物理机需要为arm64架构。 建议构建节点安装的Linux系统版本为Ubuntu 18.04。 本指导使用/o
运行时长,单位为秒,取值范围为3600-86400,该参数配置之后,每次启动均有效。如果enable为true时,该参数是必须的。如果当前实例的状态为运行中,修改此参数,只有在下次启动才会生效。 prompt 否 Boolean 是否需要再次提醒,该参数提供给前台console,用于让console
hmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导
请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip 上传tokenizers文件到工作目录中的/home/ma-user/ws/model/{Model_Name}目录,用户根据自己实际规划路径修改;如Qwen2-72B。
parquet 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/ws/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 SHELL_FOLDER
用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。 图1 PIP安装对比图
Step3 准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS
__ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过 __REJECTED__:已驳回 __UNREVIEWED__:待审核 __REVIEWED__:已审核 __WORKFORCE_SAMPLED__:已采样 __WO
inted_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints}
inted_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints}