检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
如何获取本机外网IP? 本机的外网IP地址可以在主流搜索引擎中搜索“IP地址查询”获取。 图1 查询外网IP地址 父主题: 环境配置相关
父主题: 外网访问限制
父主题: 外网访问限制
配置Standard专属资源池可访问公网 场景介绍 当您使用专属资源池创建作业时(如训练作业),如果需要作业运行过程中需要专属资源池访问外网,可打通VPC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。
前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《购买弹性云服务器》。
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
如何获取本机外网IP? 如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题? Notebook有代理吗?如何关闭? 在Notebook中添加自定义IPython Kernel 父主题: Standard Notebook
图4 查询外网IP地址 父主题: 管理Notebook实例
按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 运行日志(不开启则不计费) 由云日志服务(LTS)提供日志收集、分析、存储等服务。
按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池。
注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 父主题: 准备镜像
注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 父主题: 准备镜像
按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量 计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池运行自动学习作业。
说明: 部分许可证网站说明地址是海外网站,用户可能会因网络限制无法访问。 谁可以看 设置此数据集的公开权限。可选值有: “公开”:表示所有使用AI Gallery的用户都可以查看且使用该资产。 “指定用户”:表示仅特定用户可以查看及使用该资产。
模型训练存储加速 针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC
设置为允许远程接入访问这个Notebook的IP地址(例如本地PC的IP地址或者访问机器的外网IP地址,最多配置5个,用英文逗号隔开),不设置则表示无接入IP地址限制。
它结合了两个强大的工具:Megatron-LM和DeepSpeed,可在具有分布式计算能力的系统上进行训练,并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatron-LM是一个用于大规模语言建模的模型。
注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSpeed