检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 数据集要求 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
DCGM_FI_DEV_SM_CLOCK{gpu="0", UUID="GPU-6ad7ea4c-5517-05e7-0b54-7554cb4374d3"} 1 DCGM_FI_DEV_MEM_CLOCK{gpu="0", UUID="GPU-6ad7ea4c-5517-05e7-0b54-7554cb4374d3"}
ud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,若显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS
907) 本文档主要介绍如何在ModelArts Lite的DevServer环境中,使用NPU卡训练Wav2Lip模型。本文档中提供的Wav2Lip模型,是在原生Wav2Lip代码基础上适配后的模型,可以用于NPU芯片训练。 Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说
使用MoXing时,如何进行增量训练? 在使用MoXing构建模型时,如果您对前一次训练结果不满意,可以在更改部分数据和标注信息后,进行增量训练。 “mox.run”添加增量训练参数 在完成标注数据或数据集的修改后,您可以在“mox.run”中,修改“log_dir”参数,并新增
Control Message Protocol)的网络诊断工具,利用ICMP协议向目标主机发送数据包并接收返回的数据包来判断网络连接质量。当安全组的入方向规则中没有包含ICMP协议,就会出现ping不通的问题。 处理方法 在当前安全组的入方向规则中添加一条规则,基本协议选择ICMP协议,详
ud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS
Code。详细操作请参考安装VS Code软件。 Step1 安装VS Code插件 在本地的VS Code开发环境中,如图1所示,在VS Code扩展中搜索“ModelArts-HuaweiCloud”并单击“安装”。 图1 安装VS Code插件 安装过程预计1~2分钟,如图2所示,请耐心等待。
从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。 准备工作 准备一套可以连接外部网络,装有Linux系统并安装18.09.7及以上
使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 数据集要求 保证图片质量:不能有损坏的图片,目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。 每一类数据尽量多,尽量均衡。期望获得
准备训练数据中下载的MNIST数据集压缩包文件到OBS的“mnist-data”文件夹中。 上传数据到OBS中时,请不要加密,否则会导致训练失败。 文件无需解压,直接上传压缩包至OBS中即可。 上传训练脚本“train.py”到“mnist-code”文件夹中。 上传推理脚本“customize_service.py”和推理配置文件“config
File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读取速度变慢的
refused”如何解决? 问题现象 原因分析 网络不通;端口不通。 解决方法 检查实例是否运行。 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。
up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
SSH Remote、 Xshell)连接到容器中进行开发,可以在容器中挂载宿主机的个人存储目录,用于存放代码和数据。 当前指导中很多操作步骤在最新发放的Snt9b裸机环境中已经预置,无需用户再手动配置,用户在操作中如发现某个步骤已有预置配置可直接跳过该步骤。 物理机环境配置 配置超时参数。
connect() timed out”。 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据复制的,每个节点复制的速度不是同一个时间完成的,然后有的节点没有复制完,其他节点进行torch.distributed.init_process_group()导致超时。 处理方法
则不会显示IPv6网络参数,请以控制台实际显示为准。 RoCE网络 当前使用A系列GPU时,进行分布式训练为了将硬件上的RoCE网卡使用起来,需要配置RoCE网络。 该参数与所选规格有关,若未选中规格或规格不支持RoCE网络,则不显示。 若规格支持RoCE网络但未创建过,单击“新建RoCE网络”即可完成创建。
的配置中不需要有https。 图1 配置ToolKit 二、未配置hosts文件或者hosts文件信息配置不正确 在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置 如果用户使用的网络有代理设置要求,请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。
Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。 OBS桶必须和MaaS服务在同一个Region下,否则无法选择到该OBS路径。 准备资源池