检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
规格中数字分别代表什么含义? 在创建作业时,若需选择资源规格,您可通过规格名称了解对应规格的相关信息,如加速卡显存、CPU核心数、内存、硬盘大小。 例如,“GPU: 1*GP-Vnt1(32GB) | CPU: 8 核 64GB 3200GB”中,32G为GPU显存、8核为CPU核心数
Notebook中已安装对应库,仍报错import numba ModuleNotFoundError: No module named 'numba' 问题现象 在Notebook中使用!pip install numba命令安装了numba库且运行正常(且已保存为自定义镜像),
运行训练代码,出现dead kernel,并导致实例崩溃 在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题
运行训练代码,出现dead kernel,并导致实例崩溃 在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题
专属资源池VPC打通 通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1 打通VPC 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。 需要打通的对端网络不能和当前网段重叠
出现ModelArts.6333错误,如何处理? 问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f
训练作业进程异常退出 问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里的退出码是用户的训练作业代码返回的
学习率设置得过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。 取值范围:0~0.1 默认值:0.00002 建议微调场景的学习率设置在10-5这个量级。 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。
如果菜单栏中找不到“ModelArts > Edit Credential”,可能是PyCharm版本过高,PyCharm toolkit未适配2023.2之后版本的PyCharm工具。
单击Notebook的打开按钮时报“请求超时”错误? 当Notebook容器因内存溢出等原因导致崩溃时,如果此时单击Notebook的打开按钮时,将会出现“请求超时”错误。 该种情况下,请耐心等待容器恢复,约几十秒,再重新单击打开按钮即可。 父主题: Notebook实例常见错误
学习率设置得过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。 参见表3 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。
百分比(Percent) 0~100% 连续2个周期原始值 > 90% 重要 磁盘使用率过高时,会导致Notebook实例重启。
在Notebook中添加自定义IPython Kernel 使用场景 当前Notebook默认内置的引擎环境不能满足用户诉求,用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1.2.0”的IPython Kernel
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理,GPU显存没有释放;或者代码运行过程中内存溢出导致程序被清理,需要释放下显存,清理GPU,然后重新启动。为了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至
Notebook实例出现“Server Connection Error”错误 在Terminal中执行命令时,出现错误如图1 报错信息截图所示,此问题可能由于CPU/GPU或显存等占满,可在JupyterLab界面下方查看内存使用情况,如图2所示。 此时Kernel会自动重启,存储在
ma-cli configure鉴权命令 鉴权信息说明 在虚拟机及个人PC场景,需要配置鉴权信息,目前支持用户名密码鉴权(默认)和AK/SK鉴权; 在使用账号认证时,需要指定username和password;在使用IAM用户认证时,需要指定account、username和password
(可选)本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK,则需要在本地环境中安装ModelArts SDK,安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用,并将其部署为在线服务
如何查看训练作业资源占用情况? 在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)
创建Standard专属资源池 本章节主要介绍创建Standard专属资源池的详细操作。 前提条件 已经创建虚拟私有云。 已经创建子网。 步骤一:创建网络 ModelArts网络是承载ModelArts资源池节点的网络连接,基于华为云的VPC进行封装,对用户仅提供网络名称以及CIDR