检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
66 MiniCPM-v2 √ x x x x https://huggingface.co/HwwwH/MiniCPM-V-2 注意:需要修改源文件site-packages/timm/layers/pos_embed.py,在第46行上面新增一行代码,如下: posemb = posemb
cipherText sh /usr/bin/tf_serving_entrypoint.sh 修改模型默认路径,支持ModelArts推理模型动态加载。 Dockerfile中执行如下命令修改默认的模型路径。 ENV MODEL_BASE_PATH /home/mind ENV MODEL_NAME
情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。 请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache')
ecified max_model_len is greater than the drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。 config
ModelArts日志查询界面看到日志 通过OBS创建模型时,构建日志中提示pip下载包失败 通过自定义镜像创建模型失败 导入模型后部署服务,提示磁盘不足 创建模型成功后,部署服务报错,如何排查代码问题 自定义镜像导入配置运行时依赖无效 通过API接口查询模型详情,model_name返回值出现乱码
容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识,有助您理解本章节内容。您可查看数据盘空间分配说明,了解节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 表1 容器挂载存储的方式及差异 容器挂载存储的方式
欠费原因 已购买资源包,但使用量超出资源包额度或资源包属性与桶属性不匹配,进而产生按需费用,同时账户中的余额不足以抵扣产生的按需费用。请参考如何查看ModelArts中正在收费的作业?识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 未购买资源包,在按需计费模式下账户的余额不足。
作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts在同一个区域。如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小
est格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。 进入OBS管理控制台,根据上述步骤获得的路径,找到
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表5 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。 响应参数 状态码: 200
ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池(NEW)的详情页面查看到。ModelArts上支持的Cann软件版本可以在训练基础镜像详情页面查看,具体请参见训练基础镜像详情(Ascend-Powered-Engine)。 Ascend驱动版本与Cann软件版本的兼容关系如下表所示:
存储相关 在ModelArts中如何查看OBS目录下的所有文件?
授权管理 查看授权列表 配置授权 删除授权 创建ModelArts委托
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3。
登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训练作业列表中,单击目标训练作业名称,查看该作业的详情。 在左侧获取“输出位置”下的路径,即为训练模型的下载路径。 模型迁移到其他账号 您可以通过如下两种方式将训练的模型迁移到其他账号。
下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。 chomd 755 /home/ma-user chomd 750 /home/ma-user 排查密钥是否是和实例绑定的一致。
注意:集群有多个节点,要确保每个节点都拥有镜像。 镜像获取完成后可通过如下其中一个命令进行查看: # ctr 工具查看 ctr -n k8s.io image list # 或 crictl image # nerdctl 工具查看 nerdctl --namespace k8s.io image list
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。
路径下。 ln -s建立软连接 如果代码中涉及文件绝对路径,由于Notebook调试与训练作业环境不同,可能会导致文件绝对路径不一致,需要修改代码内容。推荐使用软链接的方式解决该问题,用户只需提前建立好软链接,代码中的地址可保持不变。 新建软链接: # ln -s 源目录/文件 目标目录/文件
安装模型运行环境 └── qwen-vl.patch # 使用git apply修改模型相关代码 父主题: 训练脚本说明