检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
据集保存路径+数据集名称(例如:moss-003-sft-data)。 --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','Pret
数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。 --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','Pret
创建Notebook可以选择小容量EVS, 比如5G大小; 开发完成后,需要大规模数据集训练,此时再将存储容量扩容至当前阶段所需容量,可以节约成本。 动态扩容EVS有什么限制 Notebook实例的存储配置采用的是云硬盘EVS。 图1 创建Notebook实例时选择云硬盘EVS存储 单次最大可以扩容100
训练作业空间不足。 处理方法 按照报错提示,需要排查以下几个问题: 检查moxing.file.copy_parallel()的第一个参数中是否有文件,否则会出现报错:No files to copy 文件存在,请执行2。 文件不存在,请忽略该报错继续执行后续操作。 检查复制的OBS的
默认“page”参数值为“0”,不支持分页。 请求消息 无。 响应消息 响应参数如表3所示。 表3 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
Long 训练作业的版本ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc
据集保存路径+数据集名称(例如:moss-003-sft-data)。 --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','Pret
数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。 --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','Pret
修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。 故障节点处理方式
e调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
0.12) doesn't match a supported version!"不影响训练,可忽略。 Notebook中调试完后,如果镜像有修改,可以保存镜像用于后续训练,具体操作请参见保存Notebook镜像环境。 父主题: 单机单卡
服务启动后,状态断断续续处于“告警中” 问题现象 预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the
标注图像分类数据 由于模型训练过程需要大量有标签的图片数据,因此在模型训练之前需对没有标签的图片添加标签。通过ModelArts您可对图片进行一键式批量添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新标注。 请确保数据集中已标注的图片不低于100张,否
ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 MindInsight能可视化展现出训练过程中的标量、图像、计算图以及模型超参等信息,同时提供训练看板、模
VS Code连接Notebook方式介绍 Visual Studio Code (VS Code) 是一个流行的代码编辑器,它支持多种编程语言和开发环境。支持通过VS Code连接和使用Jupyter Notebook。 当用户创建完成支持SSH的Notebook实例后,使用VS
13]Permission denied: '/xxx/xxxx' 上传数据时文件所属与文件权限未修改,导致训练作业以work用户组访问时没有权限了。 在代码目录中的.sh复制到容器之后,需要添加“x”可执行权限。 bash: /bin/ln: Permission denied 因安全问题,不支持用户开通使用In命令。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
String 参数名称。 value 否 String 参数值。 响应消息 响应参数如表9所示。 表9 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
ModelArts最佳实践案例列表 在最佳实践文档中,提供了针对多种场景、多种AI引擎的ModelArts案例,方便您通过如下案例快速了解使用ModelArts完成AI开发的流程和操作。 LLM大语言模型训练推理场景 样例 场景 说明 主流开源大模型基于DevServer适配ModelLink
模板进行训练,模板选择可参照表1中的template列 max_samples 50000 用于指定训练过程中使用的最大样本数量。如果设置了这个参数,训练过程将只使用指定数量的样本,而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true