检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
S桶。 如果需要在Notebook中,访问其他账号的OBS文件,前提是,需获取目标OBS桶的读写权限。 首先,请联系OBS桶的创建者,参考对其他账号授予桶的读写权限指导,授予当前账号OBS桶的读写权限。此操作指导是某一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是I
址,但是不知道如何填写推理请求的header及body。 原因分析 在线服务部署完成且服务处于运行中状态后,可以通过调用指南页签的调用地址对模型发起预测请求,出于安全考虑,ModelArts会通过相关的认证鉴权机制避免在线服务被无关人员非法调用。所以在预测请求的header信息中
的,包括“训练”、“推理”服务及“Notebook”开发环境。 专属资源池提供了动态设置作业类型的功能,您可以在创建资源池时、创建完成后,对资源池支持的作业类型进行编辑(新增或减少)。当前支持的“作业类型”有“训练作业”、“推理服务”和“开发环境”,用户可按需自行选择。 设置某一
管理。通过单击资源池名称,可以进入到资源池详情页,您可以在详情页进行下述操作。 管理Lite Cluster资源池:ModelArts支持对资源池进行管理,包括续费、开通/修改自动续费、扩容、升级驱动等操作。 管理Lite Cluster节点池:为帮助您更好地管理Kubernet
elArts专属资源池的完全控制权限,以及Notebook所有实例的访问和操作权限。 普通开发者使用开发环境,只需关注对自己Notebook实例的操作权限,包括对自己实例的创建、启动、停止、删除等权限以及周边依赖服务的权限。普通开发者不需要ModelArts专属资源池的操作权限,
Standard创建模型部署在线服务 背景说明 目前大模型的参数量已经达到千亿甚至万亿,随之大模型的体积也越来越大。千亿参数大模型的体积超过200G,在版本管理、生产部署上对平台系统产生了新的要求。例如:导入模型时,需要支持动态调整租户存储配额;模型加载、启动慢,部署时需要灵活的超时配置;当负载异常重启,模型需要
已完成迁移环境准备,且代码、预训练模型、数据等训练必需内容已经上传到环境中。 约束和限制 安装插件后,大部分能力能够对标在GPU上的使用,但并不是所有行为和GPU上是一一对应的。例如在torch_npu下,当PyTorch版本低于2.1.0时,一个进程只能操作一张昇腾卡,不支持一个进程操作多卡的能力;在PyTorch2
使用CES监控Lite Server资源 场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务,对Lite Server上的资源和事件进行监控。 监控方案介绍 监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20
数据扩增通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。 数据生成应用相关深度学习模型,通过对原数据集进行学习,训练生成新的数据集的方式增加数据量。 数据域迁移应用相关深度学习模型,通过对原域和目标域数据集进行学习,训练生成原域向目标域迁移的数据。 父主题: 处理ModelArts数据集中的数据
创建算法 机器学习从有限的观测数据中学习一般性的规律,并利用这些规律对未知的数据进行预测。为了获取更准确的预测结果,用户需要选择一个合适的算法来训练模型。针对不同的场景,ModelArts提供大量的算法样例。以下章节提供了关于业务场景、算法学习方式、算法实现方式的指导。 选择算法的实现方式
本节介绍ModelArts涉及的相关云服务的配额限制,帮助用户查看和管理自己的配额。 什么是配额 配额是在某一区域下最多可同时拥有的某种资源的数量。 华为云为防止资源滥用,对云服务每个区域的用户资源数量和容量做了配额限制。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看配额 如需查看每个配额
问题现象 训练失败并提示“Cann软件与Ascend驱动版本不匹配”。 原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。 解决方案 专属资
独立的IAM用户,您可以跳过本章节,不影响您使用ModelArts服务的其他功能。 ModelArts作为一个完备的AI开发平台,支持用户对其进行细粒度的权限配置,以达到精细化资源、权限管理之目的。这类特性在大型企业用户的使用场景下很常见。如果需要对委托授权的权限范围进行精确控制,参考本章节进行定制化委托授权。
x两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据,如集群计算、通信和下发的耗时,可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序,从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。 html总览 html中包括总体性能分析(overal
是由于模型超参数、Python三方库版本、模型源码等与标杆环境(GPU/CPU)设置的不一致导致,为了在定位过程中少走弯路,需要在定位前先对训练环境及代码做有效排查。此外,问题定位主要基于GPU环境和NPU环境上运行的过程数据做对比,所以需要分别准备GPU和NPU训练环境,大部分
配置SWR组织权限 IAM用户创建后,需要管理员在组织中为用户添加授权,使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。 只有具备“管理”权限的账号和IAM用户才能添加授权。 登录容器镜像服务控制台。 在左侧菜单栏选择“组织管理”,单击组织名称。 在“用户”页签下单击“添
Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。 图1 基于OBS+SFS Turbo的存储解决方案
升级模型服务 在AI开发过程中,服务升级包括对已部署的模型服务进行优化,以提高性能、增加功能、修复缺陷,并适应新的业务需求。更新模型版本作为服务升级的一部分,涉及用新训练的模型版本替换原来的模型,以提高预测的准确性和模型的环境适应性。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts
lArts内置了分组算法,您可以针对您选中的数据,执行自动分组,提升您的数据标注效率。 自动分组可以理解为数据标注的预处理,先使用聚类算法对未标注图片进行聚类,再根据聚类结果进行处理,可以分组打标或者清洗图片。 例如,用户通过搜索引擎搜索XX,将相关图片下载并上传到数据集,然后再
VPC下创建终端节点,连接到ModelArts的终端节点服务,即可在自己的VPC节点中访问在线服务。 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。