检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
不存在则建议使用whl包进行安装(将待安装的whl包放到模型所在的OBS目录下)。 查看待安装包的安装限制和前置依赖等,排查是否满足相关要求。 如果包有依赖关系,请参考导入模型时,模型配置文件中的安装包依赖参数如何编写?章节配置包的先后依赖关系。 父主题: 模型管理
用的资源选择。 在ECS服务器挂载SFS Turbo存储 在ECS服务器挂载SFS Turbo存储后,支持将训练所需的数据通过ECS上传至SFS Turbo。 检查云服务环境。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像用的是Ubuntu
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
需的规格和进行权限配置。随后,在ModelArts控制台上购买Lite Cluster资源。请参考Lite Cluster资源开通。 资源配置:完成资源购买后,需要对网络、存储、驱动进行相关配置。请参考Lite Cluster资源配置。 资源使用:完成资源配置后,您可以使用集群资
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
Arts的模型管理。 将模型部署为在线服务:将导入的模型部署上线。 本地构建镜像 以linux x86_x64架构的主机为例,您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像,推荐使用ubuntu18
构建新镜像。 注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建
Standard上运行GPU单机单卡训练作业 操作流程 准备工作 购买服务资源(OBS和SWR) 配置权限 创建专属资源池(不需要打通VPC) 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练 本地构建镜像及调试 上传镜像 上传数据和算法到OBS 使用Notebook进行代码调试
Lite Server资源配置流程 在开通Lite Server资源后,需要完成相关配置才能使用,配置流程如下图所示。 图1 Lite Server资源配置流程图 表1 Server资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Server网络 Server资源开
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理?
当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS Code文档。 解决方法 如果当前环境未安装OpenSSH,请下载并安装OpenSSH。 当通过“可选功能”未能成功安装时,请手动下载OpenSSH安装包,然后执行以下步骤: 下载zip包并解压放入“
elArts的模型。 将模型部署为在线服务:将导入的模型部署上线。 本地构建镜像 以linux x86_x64架构的主机为例,您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像,推荐使用ubuntu18
x86_64架构的主机,操作系统使用Ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
x86_64架构的主机,操作系统使用Ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18
x86_64架构的主机,操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18
虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 购买弹性云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施,并且这些基础设施是弹性的
Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。 父主题: VS Code连接开发环境失败故障处理