检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
system("ulimit -c 0") 排查数据集大小,checkpoint保存文件大小,是否占满了磁盘空间。 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接
释放一些不需要的tensor,使用过的,如下: del tmp_tensor torch.cuda.empty_cache() 必现的问题,使用本地Pycharm远程连接Notebook调试超参。 如果还存在问题,可能需要提工单进行定位,甚至需要隔离节点修复。 建议与总结 在创建训练作业前,推荐您先使用Mo
规格:选择1 GPU规格。 存储配置:选择“云硬盘EVS”作为存储位置。 如果需要通过VS Code连接Notebook方式进行代码调试,则需开启“SSH远程开发”并选择密钥对,请参考VS Code连接Notebook方式介绍。 参数填写完成后,单击“立即创建”进行规格确认。 参数确认无误后
否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。
VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的默认路由。当您开启默认路由后,在打通VPC时,会给ModelArts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加默认路由即可完成网络配置。
无约束 OS插件,用于故障检测。 icAgent icagent default CCE默认安装当前适配版本 无约束 CCE基础组件,用于日志和监控。 父主题: Lite Cluster使用前必读
dev_service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook SSH:可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String
dev_service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook SSH:可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String
k_timeout:939 callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过
Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。 414 Request-URI Too Large 请求的U
选择snt9b资源。 存储配置 选择“云硬盘EVS”。 磁盘规格 按照对应的存储使用情况选择存储大小。 SSH远程开发 如果需通过VS Code远程连接Notebook实例,可打开SSH远程开发,并选择自己的密钥对。 在Notebook列表,单击“操作”列的“打开”,打开Notebook实例。
keys config id_rsa id_rsa.pub”。 提交创建训练作业后,训练过程中,训练作业的节点可通过域名+端口的方式SSH连接到其他节点,示例代码如下所示: ssh modelarts-job-a0978141-1712-4f9b-8a83-000000000000-worker-1
dev_service String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook SSH:可以通过SSH协议远程连接Notebook AI_FLOW MA_STUDIO TENSOR_BOARD WEB_IDE extensions Map<String
String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。
String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。
String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。
String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。
Workflow 区别于传统的机器学习模型构建,开发者可以使用Workflow开发生产流水线。基于MLOps的概念,Workflow会提供运行记录、监控、持续运行等功能。根据角色的分工与概念,产品上将工作流的开发和持续迭代分开。 一条流水线由多个节点组成,Workflow SDK提供了流水
镜像支持的服务,默认值NOTEBOOK、SSH。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 swr_path 是 String SWR镜像地址。 visibility 否 String 镜像可见度,默认值PRIVATE。枚举值:
否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。