检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下:
2-c806a92f INFO;root:Using OBS-Python-SDK-3.1.2 原因分析 出现该问题的可能原因如下 pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。 用户
cannot find the file specified: 'c:\python39\Scripts\ephemeral-port-reserve.exe' -> 'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。 原因分析
Standard资源池功能介绍 资源池是一种集中管理和分配计算(CPU、内存)、存储(硬盘空间)、网络(带宽、IP地址)等资源的机制,实现资源的高效利用、灵活分配和动态管理。 ModelArts Standard资源池提供了在使用ModelArts进行AI开发(包括自动学习、创建
查看可用IP数量(可选) 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“网络”页签,单击网络列表中某个网络操作列的“更多 > 查看可用IP数量”,可以看到该网络所在的网段中可以使用的IP地址数量。 图7 查看可用IP数量
C。创建虚拟私有云需要登录管理员账号,IP地址段请根据现网情况合理规划。 子网 选择该VPC下的一个子网。 IPv6网络 如果当前网络配置的子网、规格、镜像都支持IPv6,则会显示该参数,打开后可启用IPv6功能。 请确保您的子网已开启IPv6功能,如果未开启请参考为虚拟私有云创建新的子网。
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Cannot re-initialize CUDA in forked subprocess 原因分析 出现该问题的可能原因如下: multiprocessing启动方式有误。 处理方法 可以参考官方文档,如下: """run.py:""" #!/usr/bin/env python
rFlow-1.8”,新建一个ipynb文件。 在新建的Notobook中,在代码输入栏输入如下命令。 !pip install Shapely 在Terminal中安装 例如,通过terminal在“TensorFlow-1.8”的环境中使用pip安装Shapely。 打开一个
on", "obs:object:ListMultipartUploadParts", "obs:object:AbortMultipartUpload", "obs:object:GetObjectAcl"
sft:表示SFT微调训练 lora:表示LoRA微调训练 MASTER_ADDR localhost 多机必填。主节点IP地址,多台机器中指定一个节点ip为主节点ip,一般指定第一个节点ip为主节点IP。 NNODES 1 多机必填。节点总数,如为双机,则写2。 NODE_RANK 0 多机必填。在节点序号,当前节点id,一般从0开始。
1 nvidia-smi 执行gpustat命令。 pip install gpustat gpustat -cp -i 使用Ctrl+C可以退出。 使用python命令 执行nvidia-ml-py3命令(常用)。 !pip install nvidia-ml-py3 import
users遵循了Huggingface的“single-file policy”的设计原则,它的三个主要模块Pipeline、Schedulers和预训练模型中,Pipeline和Schedulers都完全遵循了“single-file policy”原则。该设计原则更推荐直接复
5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training.sh文件,去除以下mc2融合算子--mc2 父主题: 常见错误原因和解决方法
5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training.sh文件,去除以下mc2融合算子--mc2 父主题: 常见错误原因和解决方法
0105 问题现象 在线服务预测报错DL.0105,报错日志:“TypeError:‘float’object is not subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码中的x[0][i]修改为x[i],重新部署服务进行预测。