检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
信息。 表2 基础配置参数说明 参数名称 说明 资源类型 裸金属服务器是一款兼具弹性云服务器和物理机性能的计算类服务器,为您和您的企业提供专属的云上物理服务器。 弹性云服务器是一种可随时自助获取、可弹性伸缩的云服务器,可帮助您打造可靠、安全、灵活、高效的应用环境,确保服务持久稳定运行,提升运维效率。
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“
数据集输入位置:用来存放源数据集信息,例如本案例中从Gallery下载的数据集。单击图标选择您的OBS桶下的任意一处目录,但不能与输出位置为同一目录。 数据集输出位置:用来存放输出的数据标注的相关信息,或版本发布生成的Manifest文件等。单击图标选择OBS桶下的空目录,且此目录不能与输入位置一致,也不能为输入位置的子目录。
选择“明细账单”,在账单列表中,在筛选条件中选择“资源ID”,并输入步骤1中复制的Notebook的ID,单击图标即可搜索该资源的账单。 图1 查询资源账单 这里设置的统计维度为“按使用量”,统计周期为“按账期”,您也可以设置其他统计维度和周期,详细介绍请参见流水与明细账单。 查看训练作业的账单 Model
Diffusion v1.5的onnx pipeline代码为例进行说明。 进入容器环境,创建自己的工作目录。 由于在Snt9B裸金属服务器环境配置指南的配置环境步骤中,在启动容器时将物理机的home目录挂载到容器的“/home_host”目录下,该目录可以直接使用上传到物理机
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析
用户如何设置默认的kernel? 用户希望打开Notebook默认的kernel为自己自定义的kernel。 解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_
标注图片(图像分类) 在标注作业详情页中,展示了此数据集中“全部”、“未标注”和“已标注”的图片,默认显示“未标注”的图片列表。单击图片,即可进行图片的预览,对于已标注图片,预览页面下方会显示该图片的标签信息。 在“未标注”页签,勾选需进行标注的图片。 手工点选:在图片列表中,单击勾选图
ppk文件”(由Step2密钥对.pem文件生成)。 单击“Open”。如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。 图7 连接到云上Notebook实例
CLI配置工具包(云服务器) 如果是在ModelArts Lite等云服务器安装Gallery CLI配置工具,则参考本节将工具包下载至云服务器。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 左侧菜单栏选择“我的资源 > 云服务器”,单击专属资源池页签进入云服务详情页面。
Interpreter 单击“File > Settings > Project:PythonProject > Python Interpreter”,单击设置图标,再单击“Add”,添加一个新的interpreter。 选择“Existing server configuration”,在下拉菜单中选择上一步配置好的SSH
IDL中的WebSocket API由W3C标准化。 WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 前提条件
关于Ant8裸金属服务器的购买,可以在华为云官网提工单至ModelArts云服务, 完成资源的申请。 步骤1 安装模型 安装Megatron-DeepSpeed框架。 使用root用户SSH的方式登录GPU裸金属服务器。具体登录方式请参见SSH密钥方式登录裸金属服务器。 拉取pyto
在资源池详情页面,单击“配置管理”,在配置管理页面,可以修改设置监控的命名空间、修改集群配置,配置镜像预热信息。 单击监控的图标,可以开启或关闭监控信息,并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。 单击集群配置的图标,可以设置绑核、Dropcache、大页
修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件标签”区域中,单击操作列的删除图标,在弹出的对话框中单击“确定”删除该标签。 基于标签修改 在数据标注页面,单击右侧的“标签管理”,在标签管理页,显示全部标签的信息。 修改
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议