检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自定义镜像,使用的训练框架是MPI或Horovod。
更新开发环境实例。 删除Notebook实例 删除开发环境实例,删除的资源包括Notebook容器以及对应的所有存储资源。 通过运行的实例保存成容器镜像 运行的实例可以保存成容器镜像,保存的镜像中,安装的依赖包(pip包)不丢失,VSCode远程开发场景下,在Server端安装的插件不丢失。
yTorch自动迁移。 在PyTorch模型迁移后进行训练的过程中,CPU只负责算子的下发,而NPU负责算子的执行,算子下发和执行异步发生,性能瓶颈在此过程中体现。在PyTorch的动态图机制下,算子被CPU逐个下发到NPU上执行。一方面,理想情况下CPU侧算子下发会明显比NPU
导出ModelArts数据集中的数据为新数据集 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。本章主要介绍将ModelArts数据集中的数据为新数据集的方式,新导出的数据集可直接在ModelArts控制台数据集列表中显示。
me/ma-user/anaconda3/envs/MindSpore 如果使用的基础镜像不是ModelArts提供的公共镜像,需要在Dockerfile文件中添加ModelArts指定的用户和用户组,具体可参考Dockerfile文件(基础镜像为非ModelArts提供)。 构建镜像
服务管理权限 表1 服务管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/
如果是在专属资源池部署服务,在满足模型需求的前提下,尝试选用更小的容器规格或自定义规格,进行服务部署; 如果当前资源池的资源确实不够,也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容,请联系系统管理员。专属资源池扩容,可参考扩缩容资源池。 如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘
略优化”的技巧来避免过大的策略更新,从而减少了训练过程中的不稳定性和样本复杂性。 指令监督式微调(Self-training Fine-tuning):是一种利用有标签数据进行模型训练的方法。 它基于一个预先训练好的模型,通过调整模型的参数,使其能够更好地拟合特定任务的数据分布。
能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2
ToolKit,协助用户完成代码上传、提交训练作业、将训练日志获取到本地展示等,用户只需要专注于本地的代码开发即可。 使用PyCharm ToolKit连接Notebook 本地IDE(VS Code) 当用户创建完成支持SSH的Notebook实例后,使用VS Code的开发者可以通过以下三种方式连接到开发环境中:VS
查询Notebook资源类型下的标签 功能介绍 查询用户当前project下Notebook实例类型下的标签,默认查询所有工作空间,无权限不返回标签数据。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
XX图片分类,比如论文、宣传海报、确认为XX的图片、其他。用户可以根据分组结果,快速剔除掉不想要的,或者将某一类直接全选后添加标签。 目前只有“图像分类”、“物体检测”和“图像分割”类型的数据集支持自动分组功能。 启动自动分组任务 登录ModelArts管理控制台,在左侧菜单栏中
odelLink开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。
需要对应所检测图片的明显特征,并且选择的标签比较容易识别(画面主体物与背景区分度较高),每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后,基于设计好的标签准备该图片的数据,每种需识别出的标签,建议应在所有图片个数相加超过100张,如果某些图片的标签具有相似性,则
使用自定义引擎创建模型,用户可以通过选择自己存储在SWR服务中的镜像作为模型的引擎,指定预先存储于OBS服务中的文件目录路径作为模型包来创建模型,轻松地应对ModelArts平台预置引擎无法满足个性化诉求的场景。 自定义引擎创建模型的规范 使用自定义引擎创建模型,用户的SWR镜像、OBS模型包和文件大小需要满足以下规范:
查询Notebook支持的可切换规格列表 功能介绍 查询创建Notebook实例支持的可切换的规格列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
获取账号名和账号ID 在调用接口的时候,部分请求中需要填入账号名(domain name)和账号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“账号名”和“账号ID”。 图1 获取账号名和ID
部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。 处理方法1 在ModelArts管理控制台,选择“权限管理”。 在用户名对应的“授权内容”列,单击“查
retrying”。 原因分析 NCCL是一个提供GPU间通信原语的库,实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时,可以通过调整NCCL的环境变量尝试解决问题。 处理步骤 进入状态“运行失败”的训练作业详情页,单击“日志”页签,查看NCCL报错。 如果出现报错“NCCL