检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后,单击“远程登录”,可直接访问ECS服务器。 注意
差异)。当模型镜像构建时间太长,构建日志最后未能完成构建任务,构建超时中断,即会出现“Model image build task timed out”提示,不显示详细的构建日志。 处理方法 预先准备需要编译下载的依赖包,减少依赖包下载和编译的时间。可通过线下wheel包方式安装
rd命令打开日志文件报错Permission denied 问题现象 在Notebook的Terminal中执行tensorboard --logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法
org中查看是否有对应版本的包并查看包安装限制。 下载的包与对应基础镜像架构不匹配,如arm系统下载了x86的包,python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。 安装pip包有先后依赖关系。 处理方法 到pypi.org上查询依赖的待安装包是否
发现“no-auto-default=*”是打开的状态,“no-auto-default=*”含义是关闭DH Client,无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。 当服务器有网卡配置文件, NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager
日志提示“Unexpected keyword argument passed to optimizer” 问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed
SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后,单击“远程登录”,可直接访问ECS服务器。 注意
SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后,单击“远程登录”,可直接访问ECS服务器。 注意
端页面日志)。根据日志中提示的报错信息找到对应的代码进行定位。 如果模型启动失败根本没有日志,则考虑使用推理模型调试功能,具体参见:在开发环境中构建并调试推理镜像。 父主题: 模型管理
图1 复制完整资产名称 获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
导致。 执行以下命令,查看NVIDIA和CUDA的版本,以及nvidia-fabricmanager的状态。 systemctl status nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态,尝试重新启动nvidia
获取“repo_id”和待下载的文件名。 获取“repo_id” 在AI Gallery页面的资产详情页,单击复制完整的资产名称,如图1所示,获取到的信息即为“repo_id”。例如,复制出的信息为“ur5468675/test_cli_model1”,则该资产的“repo_id”为“u
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 问题现象 代码在Notebook的keras镜像中可以正常运行,在训练模块使用tensorflow.keras训练报错时,出现如下报错:AttributeError:
ing”也请替换为自定义的值。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
日志报错“DataFrame.dtypes for data must be int, float or bool” 问题现象 训练过程中出现如下报错: DataFrame.dtypes for data must be int, float or bool 原因分析 出现该问题的可能原因如下:
增量训练作业设置的epochs参数有误,该问题是由YOLOv5的增量训练机制引起: 若第二次增量训练的epochs数值和第一次常规训练的epochs数值设置一样,则会报错。 若第二次增量训练的epochs数值小于第一次常规训练的epochs数值,则增量训练会出现少训练一个epoch的现象。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
查看在线服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件