检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理,GPU显存没有释放;或者代码运行过程中内存溢出导致程序被清理,需要释放下显存,清理GPU,然后重新启动。为了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至OBS桶或者容器
配置Lite Cluster网络 本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“
et(双向实时),它更加轻量级且易于实现。 前提条件 在线服务中的AI应用导入选择的镜像需支持SSE协议。 约束与限制 SSE协议只支持部署在线服务。 只支持自定义镜像导入AI应用部署的在线服务。 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。
修改在线服务配置 对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换AI应用的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。
修改批量服务配置 对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换AI应用的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。
委托选择:新增委托 权限配置:普通用户 选择完成后勾选“我已经详细阅读并同意《ModelArts服务声明》”,然后单击“创建”。 图1 配置委托访问授权 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 图2 查看委托配置信息 父主题: 权限配置
Step3 为用户配置ModelArts的委托访问授权 配置完IAM权限之后,需要在ModelArts页面为子账号设置ModelArts访问授权,允许ModelArts访问OBS、SWR、IEF等依赖服务。 此方式只允许主用户为子账号进行配置。因此,本示例中,管理员账号需为所有用户完成访问授权的配置。
测试用户权限 由于4中的权限需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。
/home/ma-user/anaconda3/bin/activate /home/ma-user/anaconda3/envs/my-env 执行如下命令在my env里安装如下依赖包。 pip install jupyter pip install jupyter_core==5.3.0 pip install
配置Lite Server存储 Server服务器支持SFS、OBS、EVS三种云存储服务,提供了多种场景下的存储解决方案,主要区别如下表所示。若需要对本地盘进行配置,请参考物理机环境配置。 表1 表1 SFS、OBS、EVS服务对比 对比维度 弹性文件服务SFS 对象存储服务OBS
添加镜像预热配置 若需添加多个镜像,可单击此按键。 图2 预置镜像预热 图3 预置镜像选择 图4 自定义镜像预热 创建密钥所需的仓库地址、用户名、密码、可以参考对应租户的SWR登录指令。 图5 创建密钥 图6 登录指令 上图中为临时登录指令,若需长期有效登录指令,可单击图中的“如何获取长期有效指令”链接获取指导。
Step2 为用户配置云服务使用权限 主用户为子账号授予ModelArts、OBS等云服务的使用权限后,子账号才可以使用这些云服务。此步骤介绍如何为用户组中的所有子账号授予使用ModelArts、OBS、SWR等各类云服务的权限。 主用户在IAM服务的用户组列表页面,单击“授权”,进入到授权页面,为子账号配置权限。
储和镜像知识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。 2 配置kubectl工具
选一,不能同时选。 SFS弹性文件服务 弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。 ECS弹性云服务器 弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像仓库 容器镜像仓库所有权限。使用SWR服务时需要配置。同时,还需开通SWR组织权限。 VPC虚拟私有云
Step3 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step4 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令 Step5 获取训练镜像
成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图6 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR。
成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图6 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR。
dockerfile添加pip源 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图5 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR。
创建自定义策略时,建议将项目级云服务和全局级云服务拆分为两条策略,便于授权时设置最小授权范围。此处的“Policy1”为项目级云服务、“Policy2”为全局级云服务。了解更多。 将自定义策略授权给开发者用户组user_group。 在统一身份认证服务控制台的左侧菜单栏中,选择“用