检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通常单进程需要占用1U的cpu和一定cpu memory(取决于模型大小),请根据实际分析环境的资源规格调整该参数,避免因cpu资源占用过大或者OOM类问题导致的notebook实例异常。
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定的子用户没有在用户组中,也可以通过“用户组管理”功能增加用户。 在用户的委托授权中同步增加此策略,避免在租户面通过委托token突破限制。
构建后需要注册镜像 用户的自定义镜像构建完成后,需要在ModelArts“镜像管理”页面注册后,方可在Notebook中使用。 SWR镜像类型设置为“私有”时,同一账号下的子用户(IAM用户)可以注册使用。 SWR镜像类型设置为“公开”时,其他用户才可以注册使用。
网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。
当提示空间不足时,推荐使用EVS类型的Notebook实例。 参考如何在Notebook中上传下载OBS文件?操作指导,针对原有的Notebook,首先将代码和数据上传至OBS桶中。
父主题: 开发环境管理
父主题: 服务管理
解决方案 在Terminal里执行命令排查实例存在几个Conda环境。 conda env list 执行如下命令分别切换到对应环境查看是否有ipykernel包。
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
若编译过程出现所依赖的tar包下载失败,如下图所示: 图1 tar包下载失败 可设置ssl忽略证书验证,修改/home/ma-user/triton/python/setup.py文件,open_url()方法: # 新增ssl忽略证书验证 import ssl
父主题: 开发环境管理
扩容实例数或者选择性能更好的“计算节点规格”,例如使用GPU资源代替CPU资源,提升服务处理能力。
网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。
在ModelArts管理控制台,单击左侧菜单栏的“总览”,您可以在“总览”区域查看正在收费的作业。根据实际情况进入管理页面,停止实例。例如,Notebook正在计费,请前往“开发空间 > Notebook”页面,将状态为“运行中”的Notebook实例停止。
“类型”:推荐选择GPU。 “规格”:推荐选择GP Tnt004规格,如果没有再选择其他规格。 参数填写完成后,单击“立即创建”进行规格确认。参数确认无误后,单击“提交”,完成Notebook的创建操作。
在控制台页面操作删除专属资源池后,后端服务需要进行资源实例释放。在资源实例释放过程中,用户依然可以查询到资源池。如果需要创建专属资源池,建议等待5min后再创建,且不要使用已创建过的专属资源池名称来命名新建的专属资源池。如果做UI自动化测试,建议用例用随机串替代。
在ModelArts管理控制台,单击左侧菜单栏的“总览”,您可以在“总览>生产概况”区域查看正在收费的作业。根据实际情况进入管理页面,停止并删除实例。
父主题: 开发环境管理