检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称,
从容器镜像中导入:由于此种方式镜像为用户完全自定义的镜像,错误原因会因自定义镜像的不同而不同,建议查看模型日志确定错误原因。 从对象存储服务(OBS)中导入:如您收到的返回是MR系列错误码,如MR.0105,请查看在线服务详情页面的日志页签查看对应的错误日志。 从AI Gallery中获取:请咨询该模型在AI Gallery中的发布者。
908版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend
907版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend
String 引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 引擎规格的名称。如“Caffe”。 engine_version String 引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1
能出现用量中断的情况。 您可通过在“费用中心 > 订单管理 > 续费管理”页面,在“手动续费项”中单击当前套餐包操作列的“再次购买”,叠加使用资源套餐包。“再次购买”可使新购套餐包立即生效,避免出现用量中断的情况。 父主题: 计费FAQ
INFO:root:Using OBS-Python-SDK-3.1.2 原因分析 Pytorch通过spawn模式创建了多个进程,每个进程会调用多进程方式使用Mox下载数据。此时子进程会不断销毁重建,Mox也就会不断的被导入,导致打印很多Mox的版本信息。 处理方法 为避免训练作业Pytorch
创建资源池失败 资源配额限制 在使用专属资源池时(如资源扩缩容、创建VPC、创建VPC-子网、打通VPC),如果提示相关资源配额受限,请提交工单处理。 创建失败/变更失败 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群
同步到实例空间,需使用JupyterLab上传下载功能。 带EVS存储的Notebook实例 JupyterLab文件默认存储路径,为创建Notebook实例时,系统自动分配的EVS空间。 在文件列表的所有文件读写操作都是基于所选择的EVS下的内容操作的。使用EVS类型的挂载,可将大数据挂载至“~/work”目录下。
文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取tokenizer文件时,加载的vocab_size出现类似如下尺寸不匹配的问题。
文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取tokenizer文件时,加载的vocab_size出现类似如下尺寸不匹配的问题。
3.908版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。
文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取tokenizer文件时,加载的vocab_size出现类似如下尺寸不匹配的问题。
原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 父主题: VS Code连接开发环境失败故障处理
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取tokenizer文件时,加载的vocab_size出现类似如下尺寸不匹配的问题。
文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取tokenizer文件时,加载的vocab_size出现类似如下尺寸不匹配的问题。
文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取tokenizer文件时,加载的vocab_size出现类似如下尺寸不匹配的问题。
String 引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 引擎规格的名称。如“Caffe”。 engine_version String 引擎规格的版本。对一个引擎名称,有多个版本的引擎,如使用python2.7的"Caffe-1
yterLab目录的文件可以与OBS的文件进行同步,使用JupyterLab文件上传下载功能。Terminal的文件与JupyterLab目录的文件相同。 挂载EVS存储的Notebook,JupyterLab目录的文件可使用Moxing接口或SDK接口,读取OBS中的文件。Te