检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用,因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”,实际下载的数据会翻倍。例如只下载了2
常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后,modelarts-os会向节点添加准入污点,进行节点准入,而因为集群volcano没有污点容忍,且集群内只有一个节点,导致volcano无法启动,进而导致modelarts-os节点上管理污点的
rProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。 自定义镜像构建完成,在ModelA
特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。 处理方法 登录“应用运维管理”控制台,在“配置管理
不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗? 针对此问题,需要根据选择的不同资源规格进行说明。 如果使用免费规格,Notebook实例将在运行1小时后,自动停止。如果72小时内没有再次启动,会释放资源,即删除此Notebook实例。因此使用
打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。 支持1个VPC下多个子网的打通,如果VPC下有多个子网,会显示“+”,您可单击“+”即可添加子网(上限10个)。
在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 如果是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。 父主题: API/SDK
EndpointsRes 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。 支持1个VPC下多个子网的打通,如果VPC下有多个子网,会显示“+”,您可单击“+”即可添加子网(上限10个)。
EndpointsRes 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
EndpointsRes 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
EndpointsRes 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String
跟导入数据的列数保持一致。 若您的原始表格中已包含表头,需要开启“导入是否包含表头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 若您的原始表格中没有表头,需要关闭“导入是否包含表头”开关,从OBS选择数据后,Schema信息的列名默认为表格中的
error 404 while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址 包名 父主题: 环境配置故障
Parameter分布到不同的NPU 增加卡数重新训练,未解决找相关人员定位。 问题2:访问容器目录时提示Permission denied 由于在容器中没有相应目录的权限,会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开,执行命令如下。 chmod 777 -R ${dir}
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30
使用订阅算法训练结束后没有显示模型评估结果 问题现象 AI Gallery中的YOLOv5算法,训练结束后没有显示模型评估结果。 原因分析 未标注的图片过多,导致没有模型评估结果。 处理方法 对所有训练数据进行标注。 父主题: 预置算法运行故障
has no attribute 'concat'。 原因分析 出现该问题的可能原因如下: 对应python包使用错误,该python包确实没有对应的变量或者方法 第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无
在安装正向代理前,需要先购买一台弹性云服务器ECS(镜像可选择Ubuntu最新版本),并配置好弹性EIP,然后登录ECS进行正向代理Squid的安装和配置,步骤如下: 如果没有安装Docker,执行以下命令进行Docker安装 curl -sSL https://get.daocloud.io/docker | sh
使用数据处理的数据扩增功能后,新增图片没有自动标注 物体检测支持扩增后的图片自动标注,图像分类暂不支持。 父主题: Standard数据管理