检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。
Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决? GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed
OBS桶,避免产生不必要的费用。 您在创建Notebook时,选择了云硬盘EVS存储,该存储会单独收费,Notebook停止后,EVS还在计费,请及时删除该Notebook实例。 您在体验CodeLab时,切换规格为付费的规格时会收费。请前往CodeLab界面单击右上角停止Notebook实例。
OBS桶,避免产生不必要的费用。 您在创建Notebook时,选择了云硬盘EVS存储,该存储会单独收费,Notebook停止后,EVS还在计费,请及时删除该Notebook实例。 您在体验CodeLab时,切换规格为付费的规格时会收费。请前往CodeLab界面单击右上角停止Notebook实例。
此处由于Huggingface网站的限制以及模型文件的大小原因,很可能会下载失败。您可以登录Huggingface网站,从浏览器下载模型后,再手动上传到物理机/home/onnx_models目录下。 下载好模型后,需要编写推理脚本。为了便于操作,本指导中所需的代码已发布在ModelArts代码仓,可以使用如下命令下载推理脚本样例代码:
之后自动停止,即1小时后停止规格资源计费。可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时,可指定1~72小时范围内任意整数。 定时停止:开启定时停止功能后,该Notebook实例将在运行时长超出您所选择的时长后,自动停止。 说明:
04内核自动升级? 哪里可以了解Atlas800训练服务器硬件相关内容 使用GPU A系列裸金属服务器有哪些注意事项? GPU A系列裸金属服务器如何更换NVIDIA和CUDA?
s申请更多资源。 图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。
本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend
本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend
在JupyterLab浏览器左侧导航删除文件后,会默认放入回收站占用内存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,
本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend: 8*ascend-snt9b表示Ascend
开发环境中不同Notebook规格资源“/cache”目录的大小 创建Notebook时,可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 映射规则:当前不
将Notebook的Conda环境迁移到SFS磁盘 本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
训练作业结束后,其生成的模型存储在OBS中,创建AI应用时,从OBS中导入已有的模型文件。 部署上线 将存储在OBS中的模型部署上线。 全局配置 - 获取访问授权(使用委托或访问密钥授权),以便ModelArts可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 M
训练作业结束后,其生成的模型存储在OBS中,创建AI应用时,从OBS中导入已有的模型文件。 部署上线 将存储在OBS中的模型部署上线。 权限管理 - 获取访问授权(使用委托或访问密钥授权),以便ModelArts可以使用OBS存储数据、创建Notebook等操作。 与云硬盘的关系 M
准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。 本地Linux机器的操作等同ECS服务器上的操作,请参考本案例。 登录ECS控制台,购买弹性云服务器,镜像选择“公共镜像”,推荐使用ubuntu18
100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。 200 OK 接口调用成功。 201 Created 创建类的请求完全成功。
针对用户创建的Notebook计算实例,后台计算节点故障后会立即自动迁移到其他可用节点上,实例状态会自动恢复。针对数据存储部分,提供了云硬盘存储挂载方式,华为云云硬盘提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,数据持久性高达99.9999999%。 训练故障自动恢复 用户在训练模