检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
description 否 String 全球加速器描述信息,取值范围:0~255个字符之间,禁止输入字符:<>。 ip_sets 是 Array of ip_sets objects 全球加速器IP列表。
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
如何获取本机外网IP? 本机的外网IP地址可以在主流搜索引擎中搜索“IP地址查询”获取。 图1 查询外网IP地址 父主题: 环境配置相关
加速器 权限 对应API接口 授权项(Action) 依赖的授权项 IAM项目(Project) 企业项目(Enterprise Project) 创建加速器 POST /v1/accelerators ga:accelerator:create - √ × 查询加速器列表 GET
更新全球加速器 功能介绍 更新全球加速器。 调用方法 请参见如何调用API。 URI PUT /v1/accelerators/{accelerator_id} 表1 路径参数 参数 是否必选 参数类型 描述 accelerator_id 是 String 全球加速器ID。
父主题: 外网访问限制
父主题: 外网访问限制
它结合了两个强大的工具:Megatron-LM和DeepSpeed,可在具有分布式计算能力的系统上进行训练,并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatron-LM是一个用于大规模语言建模的模型。
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSpeed
如何获取本机外网IP? 如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题? Notebook有代理吗?如何关闭? 在Notebook中添加自定义IPython Kernel 父主题: Standard Notebook
前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《购买弹性云服务器》。
配置Standard专属资源池可访问公网 场景介绍 当您使用专属资源池创建作业时(如训练作业),如果需要作业运行过程中需要专属资源池访问外网,可打通VPC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。
按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 运行日志(不开启则不计费) 由云日志服务(LTS)提供日志收集、分析、存储等服务。
模型训练存储加速 针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC
示例:创建DDP分布式训练(PyTorch+NPU) 本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。 前提条件 需要有Ascend加速卡资源池。 创建训练作业 本案例创建训练作业时,需要配置如下参数。 表1 创建训练作业的配置说明
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
图4 查询外网IP地址 父主题: 管理Notebook实例
注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。
按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池。
按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池运行自动学习作业。
设置为允许远程接入访问这个Notebook的IP地址(例如本地PC的IP地址或者访问机器的外网IP地址,最多配置5个,用英文逗号隔开),不设置则表示无接入IP地址限制。
说明: 部分许可证网站说明地址是海外网站,用户可能会因网络限制无法访问。 谁可以看 设置此数据集的公开权限。可选值有: “公开”:表示所有使用AI Gallery的用户都可以查看且使用该资产。 “指定用户”:表示仅特定用户可以查看及使用该资产。
产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理 大规模分布式训练能力,加速大模型研发 提供高性价比国产算力 多年软硬件经验沉淀,AI场景极致优化 加速套件,训练、推理、数据访问多维度加速 一站式端到端生产工具链,一致性开发体验