检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《弹性云服务器快速入门》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。 停止 单击指定
Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据,例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGP
模型发布失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取模型ID。 进入“AI应用管理>AI应用”页面,在AI应用列表中找到自动学习任务中自动创建的模型,自动学
通过OBS创建AI应用时,构建日志中提示pip下载包失败 问题现象 通过OBS创建AI应用构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi
创建AI应用失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建AI应用失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认
Notebook”,进入Notebook管理页面。 执行如下操作启动或停止Notebook。 启动Notebook:单击“操作”列的“启动”。只有处于“停止”状态的Notebook可以执行启动操作。 停止Notebook:单击“操作”列的“停止”。只有处于“运行中”状态的Notebook可以执行停止操作。
s申请更多资源。 图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN
服务部署失败,报错ModelArts.3520,服务总数超限 部署服务时,ModelArts报错“ModelArts.3520: 在线服务总数超限,限制为20”,接口返回“A maximum of xxx real-time services are allowed.”,表示服务数量超限。
PC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通
执行刷新操作后可查看到对应的镜像信息。 为什么使用客户端上传镜像失败? 上传数据和算法至SFS ECS服务器已挂载SFS,请参考在ECS服务器挂载SFS Turbo存储。 已经在ECS中设置权限,请参考在ECS中设置ModelArts用户可读权限。 已经安装和配置obsutil,请参见安装和配置OBS命令行工具。
Standard上运行GPU多机多卡训练任务 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练:
获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workplace\m
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。 单个弹性公网IP用于多个Server服务器:一个VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server服务器均可以通过该E
管理在线服务生命周期 启动服务 您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作,“部署中”状态的服务无法启动。启动服务,当服务处于“运行中”状态后,ModelArts将开始计费。您可以通过如下方式启动服务: 登录ModelArts管理控制台,在左侧菜单栏中选择
管理批量服务生命周期 启动服务 您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作,“部署中”状态的服务无法启动。启动服务,当服务处于“运行中”状态后,ModelArts将开始计费。您可以通过如下方式启动服务: 登录ModelArts管理控制台,在左侧菜单栏中选择
创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境 保存并共享虚拟环境 前提条件 创建一个Notebook,“资源类型”选择“专属资源池”,“存储配置”选择“SFS弹性文件服务器”,打开terminal。 创建新的虚拟环境并保存到SFS目录
为什么在ModelArts数据标注平台标注数据提示标注保存失败? 问题现象 以Chrome浏览器为例,同一张图片,第一次标注时,右上角弹窗提示标注保存失败,第二次提交相同的标注结果,又提示标注成功,此问题概率性发生。“F12”打开浏览器Console,单击network查看请求列