检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
100G,带EIP全动态BGP,按流量10M带宽) × 多机多卡 按需购买 (普通OBS桶) 包月购买 (HPC型500G) 免费 免费 包月购买 免费 包月购买 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) × 表2 开源数据集训练效率参考
也可以单击密钥对右侧的“立即创建”,跳转到数据加密控制台,在“密钥对管理 > 账号密钥对”页面,单击“创建密钥对”。 创建完Notebook后,可以在Notebook详情页中修改密钥对。
表1 环境要求 名称 版本 PyTorch pytorch_2.1.0 驱动 23.0.6 获取镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.909-xxx.zip软件包中的AscendCloud-AIGC-6.3.909-xxx.zip,AscendCloud-OPP
Kubernetes Kubernetes是一个开源的容器编排部署管理平台,用于管理云平台中多个主机上的容器化应用。Kubernetes的目标是让部署容器化的应用简单并且高效,Kubernetes提供了应用部署、规划、更新、维护的一种机制。
选择“multipart/form-data”时,需填写“请求参数”,请求参数取值等同于使用图形界面的软件进行预测(以Postman为例)Body页签中填写的“KEY”的取值,也等同于使用curl命令发送预测请求上传数据的参数名。
表格数据集的工作目录不支持为KMS加密桶下的OBS路径。目前仅支持传入单个DataSource。 dataset_name 是 String 数据集名称。 dataset_type 否 Integer 数据集类型。
stable-diffusion-xl-base-1.0/tree/main 下载sdxl-vae-fp16-fix模型包并上传到宿主机上,官网下载地址:https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/tree/main 下载开源数据集
ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。 由于训练作业运行需消耗资源,为了避免训练失败请确保账户未欠费。 确保使用的OBS目录与ModelArts在同一区域。 检查是否配置了访问授权。
表格数据集的工作目录不支持为KMS加密桶下的OBS路径。 work_path 是 表6 数据集输出位置,用于存放输出的标注信息等文件。 labels 否 List of 表7 数据集标签列表,创建文本三元组标注类型的数据集时需要传递该参数。
购买弹性云服务器 数据加密服务DEW 在使用Notebook进行代码调试时,如果要开启“SSH远程开发”功能,需要选择密钥对,便于用户登录弹性云服务器时使用密钥对方式进行身份认证,提升通信安全。密钥对可免费创建。 如何创建密钥对? 配置权限 配置IAM权限。
自定义模型使用的预置镜像 AI Gallery提供了PyTorch基础镜像,镜像里已经安装好了运行任务所需的软件,供自定义模型直接使用,快速进行训练、推理。预置镜像的版本信息请参见表3。
您可以使用开源支持的所有功能,详细操作指导可参见JupyterLab官网文档。 图1 JupyterLab主页 不同AI引擎的Notebook,打开后Launcher页面呈现的Notebook和Console内核及版本均不同,图1仅作为示例,请以实际控制台为准。
不支持OBS KMS加密桶 不支持OBS KMS加密桶 401 ModelArts.4901 Failed to prepare a training job. 训练任务准备失败 授权OnObs失败。
选择“multipart/form-data”时,需填写“请求参数”,请求参数取值等同于使用图形界面的软件进行预测(以Postman为例)Body页签中填写的“KEY”的取值,也等同于使用curl命令发送预测请求上传数据的参数名。
建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件数不大于10w个。分层时,先构建不常变化的层,例如:先OS,再cuda驱动,再Python,再pytorch,再其他依赖包。 不建议把数据、代码放到容器镜像里。
打开“Tool>Start SSH Section”,安装依赖软件。
使用预置框架 + 自定义镜像: 如果先前基于预置框架且通过指定代码目录和启动文件的方式来创建的算法;但是随着业务逻辑的逐渐复杂,您期望可以基于预置框架修改或增加一些软件依赖的时候,此时您可以使用预置框架 + 自定义镜像的功能,即选择预置框架名称后,在预置框架版本下拉列表中选择“自定义
DeepSpeed是开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化,可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略,包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。
上传数据到OBS中时,请不要加密,否则会导致训练失败。 文件无需解压,直接上传压缩包至OBS中即可。 上传训练脚本“train.py”到“mnist-code”文件夹中。
上传数据到OBS中时,请不要加密,否则会导致训练失败。 文件无需解压,直接上传压缩包至OBS中即可。 上传训练脚本“train.py”到“mnist-code”文件夹中。