检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。 OBS管理概述 ModelArts SDK支持对OBS的SDK接口进行调用,包括创建OBS桶,上传/下载文件和文件夹,删除OBS对象和桶。 ModelArts SDK具体操作管理请参见如下章节:
指定要查询页的索引,默认为1。“page”可选的范围为[1,65535]。 sortBy 否 String 指定查询的排序方式,默认是作业名称“job_name”,目前支持的排序还有作业描述“job_desc”,作业状态“status”,运行时长“duration”,作业版本数“version_count”以及创建时间
磁盘大小应该是“cache目录容量 x 0.9”。 裸机的本地磁盘为物理磁盘,无法扩容,如果存储的数据量大,建议使用SFS存放数据,SFS支持扩容。 GPU规格的资源 表1 GPU cache目录容量 GPU规格 cache目录容量 GP Vnt1 800G 8*GP Vnt1 3T
不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推 表1 模型NPU卡数取值表 支持模型 支持模型参数量 文本序列长度 训练类型 Zero并行 规格与节点数 llama3 70B cutoff_len=4096 lora per
er服务器能够访问网络,因此需要先完成网络配置。 2 配置Lite Server存储 Server资源需要挂载数据盘用于存储数据文件,当前支持SFS、OBS、EVS三种云存储服务,提供了多种场景下的存储解决方案。 3 配置Lite Server软件环境 不同镜像中预安装的软件不同,您通过Lite
建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上note
重装的包与镜像装CUDA版本不匹配 问题现象 在现有镜像基础上,重新装了引擎版本,或者编译了新的CUDA包,出现如下错误: 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s
Standard,并进行在线推理预测的体验过程。 面向AI开发零基础的用户 从0-1制作自定义镜像并创建AI应用 针对ModelArts不支持的AI引擎,您可以构建自定义镜像,并将镜像导入ModelArts,创建为AI应用。本案例详细介绍如何使用自定义镜像创建AI应用,并部署成在线服务。
产的查找效率,快速找到适合的算法、模型、数据集、镜像、Workflow等资产。 图1 搜索资产 表1 快速搜索方式 区域 类型 搜索方式 支持的AI资产 1 搜索华为云官方资产 在页面单击“官方”,筛选出所有的华为云官方资产,该类资产均可免费使用。 Notebook、算法、模型 2
在数据集管理中,对难例的管理有如下场景。 智能标注后,确认难例 将数据集中的数据标注为难例 目前只有“图像分类”和“物体检测”类型的数据集支持难例发现功能。 智能标注后,确认难例 “智能标注”任务执行过程中,ModelArts将自动识别难例,并完成标注。当智能标注结束后,难例标注
图1 创建Notebook实例时选择云硬盘EVS存储 单次最大可以扩容100GB,扩容后的总容量不超过4096GB。 云硬盘EVS存储容量最大支持4096GB,达到4096GB时,不允许再扩容。 实例停止后,扩容后的容量仍然有效。计费也是按照扩容后的云硬盘EVS容量进行计费。 云硬盘
VS Code连接后长时间未操作,连接自动断开 问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SS
VS Code连接后长时间未操作,连接自动断开 问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SS
VS Code一键连接Notebook 视频介绍 前提条件 已经创建Notebook实例 ,实例已经开启SSH连接,实例状态为运行中。 请参考创建Notebook实例。 实例的密钥文件已经下载至本地的如下目录或其子目录中: Windows:C:\Users\{{user}} Mac/Linux:
服务启动失败 问题现象 当服务事件中出现如下事件时,表示容器启动失败。 图1 服务启动失败 原因分析 服务启动失败的原因比较多样,可能有如下几种情况: AI应用本身问题,无法启动 镜像中配置的端口错误 健康检查配置有问题 模型推理代码customize_service.py编写有问题
数据集版本不合格 出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即2种以上的标签),每种分类的图片数不少于5张。
为什么资源充足还是在排队? 如果是公共资源池,一般是由于其他用户占用资源导致,请耐心等待或根据训练作业一直在等待中(排队)?方法降低排队时间。 如果是专属资源池,建议您进行以下排查: 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。 可通过总览页面,快
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? 问题现象 报错“Bad owner or permissions
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决? 问题现象 报错“Bad owner or permissions
在MaaS体验模型服务 在ModelArts Studio大模型即服务平台,运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。 前提条件 在“模型部署”的服务列表存在“运行中”的模型服务。 操作步骤 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts