检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts产品形态介绍 产品形态 产品定位 使用场景 文档链接 ModelArts Standard 面向AI开发者的一站式开发平台, 提供了简洁易用的管理控制台,包含自动学习、数据管理、开发环境、模型训练、模型管理、部署上线等端到端的AI开发工具链,实现AI全流程生命周期管理。 面向有AI开发平台诉求的用户。
创建多机多卡的分布式训练(DistributedDataParallel) 本章节介绍基于PyTorch引擎的多机多卡数据并行训练。并提供了分布式训练调测具体的代码适配操作过程和代码示例。同时还针对Resnet18在cifar10数据集上的分类任务,给出了分布式训练改造(DDP)的完整代码示例,供用户学习参考。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
AI Gallery使用流程 AI Gallery提供了模型、数据集、AI应用等AI数字资产的共享,为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体,提供安全、开放的共享及交易环节,加速AI资产的开发与落地,保障AI开发生态链上各参与方高效地实现各自的商业价值。
Gallery中分享的算法支持免费订阅,但在使用过程中如果消耗了硬件资源进行部署,管理控制台将根据实际使用情况收取硬件资源的费用。 前提条件 注册并登录华为云,且创建好OBS桶用于存储数据和模型。 订阅算法 登录“AI Gallery”。 选择“资产集市 > 算法”,进入算法页面,该页面展示了所有共享的算法。 搜索业务所需的算法,请参见查找资产。
提供机柜、节点、加速卡、任务多场景故障感知和检测 提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力
Flux是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。官方提供了三个版本:FLUX.1-pro、FLUX.1-dev和FLUX.1-schnell。 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展Flux模型的FLUX
ModelArts支持云审计的关键操作 公有云平台提供了云审计服务。通过云审计服务,您可以记录与ModelArts相关的操作事件,便于日后的查询、审计和回溯。 前提条件 已开通云审计服务。 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称
略大于该规格。 “实例数” 设置当前版本模型的实例个数。如果实例数设置为1,表示后台的计算模式是单机模式;如果实例数设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量,注入环境变量到容器实例。为确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。
8 核 32GB的资源池,计划使用时间为1个月(30天)。该公司想要了解采用哪种计费模式才是最具性价比的方式。 计费构成分析 基于此案例,可详细计算出按需计费和包年/包月两种不同的计费模式的消费情况。 此案例中的单价仅为示例,且计算出的费用为估算值。单价的变动和实际场景中计算
如果您是个人用户,则不需要考虑细粒度权限问题,完成ModelArts委托授权即可使用ModelArts的所有权限。 ModelArts平台的所有功能均通过IAM体系进行了权限管控,服务管理员可以通过标准的IAM授权动作,来对特定用户进行精细化的权限管控。 场景描述 MaaS服务的访问授权是通过ModelArt
相关名词解释 名词 含义 裸金属服务器 裸金属服务器是一款兼具虚拟机弹性和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 由于Server是一台裸金属服务器,在ModelArts管理控制
Turbo。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:允许,云服务中搜索“SFSTurbo”服务并选中,“操作”中查找只读操作“sfsturbo:shares:showShareNic”、“sfsturbo:shares:listShareNics”并选中,,
查看预测结果 本案例中数据和算法生成的模型仅适用于教学模式,并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求,预测图片必须和训练数据集中的图片相似才可能预测准确。 ModelArts的AI Gallery中提供了常见的精度较高的算法和相应的训练数据集,用户可以在AI
查看预测结果 本案例中数据和算法生成的模型仅适用于教学模式,并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求,预测图片必须和训练数据集中的图片相似才可能预测准确。 ModelArts的AI Gallery中提供了常见的精度较高的算法和相应的训练数据集,用户可以在AI
当需要调试代码时,可以直接打断点,然后使用debug方式运行程序。 图7 代码打断点 图8 Debug方式调试 此时可以进入debug模式,代码运行暂停在该行,且可以查看变量的值。 图9 Debug模式 使用debug方式调试代码的前提是本地的代码和云端的代码是完全一致的,如果不一致可能会导致在本地打断点的
果消耗了硬件资源进行部署,管理控制台将根据实际使用情况收取硬件资源的费用。 前提条件 注册并登录华为云,且创建好OBS桶用于存储数据和模型。 订阅并使用AI案例 登录“AI Gallery”。 选择“案例库”,在下拉框中单击“案例库 >”,进入AI案例库首页,该页面展示了所有共享的案例。
在ModelArts创建分布式训练时如何设置NCCL环境变量? ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX