检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
er服务可以使单节点GPU卡间互联,在多卡GPU机器上,出现这种问题可能是nvidia-fabricmanger异常导致。 执行以下命令,查看NVIDIA和CUDA的版本,以及nvidia-fabricmanager的状态。 systemctl status nvidia-fabricmanager
zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。 unzip AscendCloud-*.zip 上传tokenizers文件到工作目录中的/home/ma-user/ws/toke
-Console查看相关任务。 团队标注任务创建成功后,团队成员收到标注任务的邮件。 图5 任务邮件 单击任务邮件中的标注任务地址,跳转至ModelArts控制台的“数据准备>数据标注 > 我参与的”页面。如果未登录控制台,请先登录。 在“我参与的”页签下,可查看您的标注任务。 图6
383bbd54bc621086e05aa1b030d8d4d5635b25e6 pip install -e . 执行如下精度测试命令,可以根据参数说明修改参数。 lm_eval --model vllm --model_args pretrained=${vllm_path},dtype=auto
ModelArts日志查询界面看到日志 通过OBS创建模型时,构建日志中提示pip下载包失败 通过自定义镜像创建模型失败 导入模型后部署服务,提示磁盘不足 创建模型成功后,部署服务报错,如何排查代码问题 自定义镜像导入配置运行时依赖无效 通过API接口查询模型详情,model_name返回值出现乱码
ecified max_model_len is greater than the drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。 config
注意:集群有多个节点,要确保每个节点都拥有镜像。 镜像获取完成后可通过如下其中一个命令进行查看: # ctr 工具查看 ctr -n k8s.io image list # 或 crictl image # nerdctl 工具查看 nerdctl --namespace k8s.io image list
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3。
userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即:
登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训练作业列表中,单击目标训练作业名称,查看该作业的详情。 在左侧获取“输出位置”下的路径,即为训练模型的下载路径。 模型迁移到其他账号 您可以通过如下两种方式将训练的模型迁移到其他账号。
排序方式,ASC升序,DESC降序。 sort_key 否 String 排序的字段,多个字段使用(“,”)逗号分割。 offset 否 Integer 分页记录的起始位置偏移量。 limit 否 Integer 每一页的数量。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数
情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。 请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache')
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表5 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。 响应参数 状态码: 200
ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池(NEW)的详情页面查看到。ModelArts上支持的Cann软件版本可以在训练基础镜像详情页面查看,具体请参见训练基础镜像详情(Ascend-Powered-Engine)。 Ascend驱动版本与Cann软件版本的兼容关系如下表所示:
容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识,有助您理解本章节内容。您可查看数据盘空间分配说明,了解节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 表1 容器挂载存储的方式及差异 容器挂载存储的方式
欠费原因 已购买资源包,但使用量超出资源包额度或资源包属性与桶属性不匹配,进而产生按需费用,同时账户中的余额不足以抵扣产生的按需费用。请参考如何查看ModelArts中正在收费的作业?识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 未购买资源包,在按需计费模式下账户的余额不足。
作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts在同一个区域。如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小
est格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。 进入OBS管理控制台,根据上述步骤获得的路径,找到
存储相关 在ModelArts中如何查看OBS目录下的所有文件?
节点池管理 查询OS的配额