检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在大规模分布式作业上,每个节点都在复制同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS Client与服务端连接30S内无响应,超过超时时间,服务端断开了连接。 处理方法 如果是限流问题,日志中还会出现如下报错,OBS相关的错误码解释请参见OBS官方文档,这种情况建议提工单。
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi
如果您已经熟悉了常用操作,同时熟悉MoXing Framework API文档以及常用的Python编码,您可以参考本章节使用MoXing Framework的一些进阶用法。 读取完毕后将文件关闭 当读取OBS文件时,实际调用的是HTTP连接读取网络流,注意要记得在读取完毕后将文件关闭。为了防止忘记文件关闭操作,推
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user/ws/llm_train/LLaMAFactory
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user/ws/llm
DockerFile构建镜像(可选) 本章节主要介绍通过DockerFile文件构建训练镜像,将训练过程中依赖包封装使用,过程中需要连接互联网git clone,请确保环境可以访问公网,详解操作如下: 进入代码包Dockerfile文件同级目录: cd /home/ma-user/ws/llm_train/LLaMAFactory
h,训练使用的资源是专属资源池的Ascend芯片。 准备工作 准备一套可以连接外部网络,装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点,以下称“构建节点”。 可以通过执行docker pull、apt-get update/upgrade和pip
CLI命令功能介绍 功能介绍 ModelArts CLI,即ModelArts命令行工具,是一个跨平台命令行工具,用于连接ModelArts服务并在ModelArts资源上执行管理命令。用户可以使用交互式命令行提示符或脚本通过终端执行命令。为了方便理解,下面将ModelArts CLI统称为ma
安装过程需要连接互联网git clone,确保容器可以访问公网。 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。 Step1 上传权重文件 将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开
输入集群描述信息,方便查找区分集群。 标签 单击“添加新标签”,可以为Standard资源池配置标签信息,通过标签实现资源的分组管理。此处的标签信息可以同源标签管理服务TMS中预定义的标签信息,也可以输入自定义标签。也可以在创建完成后的Standard资源池详情页面中通过“标签”页签设置标签信息。
Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。 Step1 上传权重文件 将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开
Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。 Step1 上传权重文件 将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开
安装过程需要连接互联网git clone,确保容器可以访问公网。 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
通过VPC访问通道的方式访问在线服务 背景说明 如果您希望在自己账号的VPC内部节点访问ModelArts推理的在线服务,可以使用VPC访问通道的功能,用户通过在自己账号的指定VPC下创建终端节点,连接到ModelArts的终端节点服务,即可在自己的VPC节点中访问在线服务。 约束限制 调用API访问
Running Parameters 运行参数。如果您的代码需要添加一些运行参数,可以在此处添加,多个运行参数使用英文分号隔开, 例如"key1=value1;key2=value2"。此参数也可以不设置,即保持为空。 Specifications 训练使用资源类型。目前支持公共资源池和专属资源池两种类型。
Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点,成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能,可以通过调整节点连接达到不同的出图效果。在图像生成方面,它不仅比传统的WebUI更迅速,而且显存占用更为经济。 本文档主要介绍如何在ModelArts
源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi
安装过程需要连接互联网git clone,确保容器可以访问公网。 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态