检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。
必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。
进入“任务历史”界面,可查看相应的导入历史。 图9 查看历史数据 删除数据 通过数据删除操作,可将需要丢弃的数据快速删除。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的内容,或者选择“选择当前页”选中该页面所有内容,然后单击“删除”。在弹出的对话框中,根据实际情
必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。
get_tokenized_data()中调用self._filter方法处理每一个sample self._filter在基类中未定义,需要各个子类针对目标数据集格式进行实现 所有handler依据实际数据集实现self._filter方法,处理原始数据集中的单一sample,其余方法复用基类的实现。
get_tokenized_data()中调用self._filter方法处理每一个sample self._filter在基类中未定义,需要各个子类针对目标数据集格式进行实现 所有handler依据实际数据集实现self._filter方法,处理原始数据集中的单一sample,其余方法复用基类的实现。
200 表3 响应Body参数 参数 参数类型 描述 grants Array of grants objects 授权用户列表。默认为空。需要与“auth_type”参数配合使用,且仅当授权类型为“INTERNAL”时才会生效。 owner String 创建者名称。 auth_type
请参考OBS权限管理,为当前IAM用户配置“作用范围”为“全局级服务”的“Tenant Administrator”策略,即拥有OBS服务所有操作权限。 如果需要限制此IAM用户操作,仅为此用户配置OBS相关的最小化权限项,具体操作请参见创建ModelArts自定义策略。 检查OBS桶是否具备权限。
'/xxx/xxxx' 上传数据时文件所属与文件权限未修改,导致训练作业以work用户组访问时没有权限了。 在代码目录中的.sh复制到容器之后,需要添加“x”可执行权限。 bash: /bin/ln: Permission denied 因安全问题,不支持用户开通使用In命令。 bash:/home/ma-user/
规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,用户发现当前规格无法满足业务需要,于2023/03/20 9:00:00扩容规格增加1个节点(扩容后,共有2个节点)。因为该专属资源池打算长期使用下去,于2023/03/20
2u/modelarts.vm.gpu.p4/modelarts.vm.ai1.a310。 envs Map<String, String> 运行模型需要的环境变量键值对。 instance_count Integer 模型部署的实例数。 scaling Boolean 是否启用弹性伸缩。 表3
ata/aoe”路径下,同时会在aoe_output路径下输出对应的mindir模型,由于当前模型并没有吸收知识库信息,所以性能不佳,因此需要在保留AOE知识库的情况下,再次进行转换,以达到较优性能。 删除编译缓存atc_data。 注意相比第一次清除缓存操作,本次保留了AOE知识库。
基于高性能考虑,ModelArts会复用同模型服务的连接。根据tcp协议,连接的断开可以由该连接的client端发起,也可以由server端发起。断开连接需要经过四次握手,所以可能会存在作为服务端的模型服务侧发起断开连接,但是该连接正在被作为客户端的ModelArts使用,从而导致通信出错,返回此错误信息。
“指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选启用:当用户要使用该镜像时需要提交申请,只有镜像所有者同意申请后,才能使用镜像。 不勾选不启用(默认值):所有可见资产的用户都可以直接使用镜像。 发布后,资产会处于“审核中”,审核中的资产仅资产所有者可见。
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
type”,表示MindSpore暂不支持该算子。 报错日志中搜到“Convert graph to om failed”,表示CANN模块进行图编译存在保存,需要结合CANN的报错日志和dump图进行具体分析。 配置方式参考如下: 打开DEBUG日志。 设置MindSpore日志环境变量。 export
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_d