检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Standard自动学习 ModelArts通过机器学习的方式帮助不具备算法开发能力的业务开发者实现算法的开发,基于迁移学习、自动神经网络架构搜索实现模型自动生成,通过算法实现模型训练的参数自动化选择和模型自动调优的自动学习功能,让零AI基础的业务开发者可快速完成模型的训练和部署。
基于高性能考虑,ModelArts会复用同模型服务的连接。根据tcp协议,连接的断开可以由该连接的client端发起,也可以由server端发起。断开连接需要经过四次握手,所以可能会存在作为服务端的模型服务侧发起断开连接,但是该连接正在被作为客户端的ModelArts使用,从而导致通信出错,返回此错误信息。
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 华为云ModelArts服务MindStudio,ML Studio,ModelBox镜像将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region
Shell中调试多节点训练作业时,需要在Cloud Shell中切换work0、work1来实现对不同节点下发启动命令,否则任务会处于等待其他节点的状态。 如何防止Cloud Shell的Session断开 如果需要长时间运行某一个任务,为避免在期间连接断开导致任务失败,可通过使用screen命令使得任务在远程终端窗口运行。
PyTorch在昇腾AI处理器的加速实现方式是以算子为粒度进行调用(OP-based),即通过Python与C++调用CANN层接口Ascend Computing Language(AscendCL)调用一个或几个亲和算子组合的形式,代替原有GPU的实现方式,具体逻辑模型请参考PyTorch自动迁移。
指定NCCL使用的IB网卡。 “NCCL_IB_HCA=^mlx5_bond_0” NCCL_SOCKET_IFNAME 指定NCCL使用的SOCKET网卡。 “NCCL_SOCKET_IFNAME=bond0,eth0” 表4 OBS环境变量 变量名 说明 示例 S3_ENDPOINT
群详情页面。 在CCE集群详情页面中,在集群信息中找到“连接信息”。 图10 链接信息 使用kubectl工具。 若通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。单击连接信息下kubectl后的“配置”按钮,根据界面提示使用kubectl工具。
ModelArts Standard同时提供了自动学习功能,帮助用户零代码构建AI模型,详细介绍请参见使用ModelArts Standard自动学习实现垃圾分类。 面向AI工程师,熟悉代码编写和调测,您可以使用ModelArts Standard提供的在线代码开发环境,编写训练代码进行AI模型的开发。
定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件:
定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSpeed的核心思想是在单个GPU上实现大规模模型并行训练,从而提高训练速度。DeepSpeed提供
定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
使用PyCharm ToolKit连接Notebook 本地IDE(VS Code) 当用户创建完成支持SSH的Notebook实例后,使用VS Code的开发者可以通过以下三种方式连接到开发环境中:VS Code一键连接Notebook、VS Code ToolKit连接Notebook、VS
定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
服务管理概述 服务管理,包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。 这里的在线服务包括“predictor”和“transformer”两类,都包括下文描述的功能,本章节以“predictor”服务为例进行说明。
令被执行之前任务还有一些初始化动作,例如下载训练数据集、CKPT等。这些初始化动作执行耗时差距过大会直接导致出现Socket Timeout错误。所以遇到Socket Timeout问题时首先需要排查的是各个任务执行torchrun的时间点差距是否在合理范围内,如果时间点差距过大
型。针对不同的场景,ModelArts提供大量的算法样例。以下章节提供了关于业务场景、算法学习方式、算法实现方式的指导。 选择算法的实现方式 ModelArts提供如下方式实现模型训练前的算法准备。 使用订阅算法 ModelArts的AI Gallery提供了可以直接订阅的算法,
启动探针,则默认状态为成功Success。 就绪探针:用于检测应用实例是否已经准备好接收流量。如果就绪探针失败,即实例未准备好,会从服务负载均衡的池中剔除该实例,不会将流量路由到该实例,直到探测成功。 存活探针:用于检测应用实例内应用程序的健康状态。如果存活探针失败,即应用程序不健康,将会自动重启实例。