检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查: 检查依赖包是否存在 检查依赖包路径是否能被识别 检查训练作业使用的资源规格是否正确 建议与总结 检查依赖包是否存在 如果依赖包不存在,您可以使用以下两种方式完成依赖包的安装。 方式一(推
重装的包与镜像装CUDA版本不匹配 问题现象 在现有镜像基础上,重新装了引擎版本,或者编译了新的CUDA包,出现如下错误: 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s
test_count,若都未输入,则返回处理失败 False。 上传数据到指定目录 将下载的原始数据存放在/mnt/sfs_turbo/training_data目录下。具体步骤如下: 进入到/mnt/sfs_turbo/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data
pip install huggingface-hub==0.25.1 (可选)如果需要在humaneval数据集上评估模型代码能力,请执行此步骤,否则忽略这一步。原因是通过opencompass使用humaneval数据集时,需要执行模型生成的代码。请仔细阅读human_eval/execution
方法1:使用导入功能。将图片上传至OBS任意目录,通过“从OBS目录导入”方式导入到已有数据集。 方法2:使用同步数据源功能。将图片上传到数据集输入目录下(或者其子目录),单击数据集详情页中的“同步数据源”将新增图片导入。需注意的是,同步数据源同时也会将OBS已删除的文件从数据集也删除,请谨慎操作。
日志提示“Please upgrade numpy to >= xxx to use this pandas version” 问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version
使用容器化部署,导入的元模型有大小限制,详情请参见导入模型对于镜像大小限制。 前提条件 确保您使用的OBS目录与ModelArts在同一区域。 创建模型操作步骤 登录ModelArts管理控制台,在左侧导航栏中选择“模型管理”,进入模型列表页面。 单击左上角的“创建模型”,进入“创建模型”页面。 在“创建应用”页面,填写相关参数。
docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
test_count,若都未输入,则返回处理失败 False。 上传数据到指定目录 将下载的原始数据存放在/mnt/sfs_turbo/training_data目录下。具体步骤如下: 进入到/mnt/sfs_turbo/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data
处理失败 False。 上传数据到指定目录 将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data
安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本 wget https://github.com/contai
"工具描述(选填)" } ] 上传数据到指定目录 将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data
处理失败 False。 上传数据到指定目录 将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data
处理失败 False。 上传数据到指定目录 将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data
如果对于误检有疑问或者卡死问题无法自行解决,您可以前往ModelArts开发者论坛进行提问或者搜索问题。 约束限制 卡死检测仅支持资源类型为GPU和NPU的训练作业。 操作步骤 卡死检测无需额外配置,作业运行中会自动执行检测。检测到作业卡死后会在训练作业详情页提示作业疑似卡死。如需检测到卡死后发送通知(短信、邮件等)请在作业创建页面配置事件通知。
已经创建好训练作业的日志输出位置,例如“obs://cnnorth4-job-test-v2/pytorch/fast_example/log”。 操作步骤 调用认证鉴权接口获取用户的Token。 请求消息体: URI格式:POST https://{iam_endpoint}/v3/auth/tokens
类型type、属性properties,必须属性required 、定义definitions等,JSON Schema通过定义对象属性、类型、格式的方式来引导模型生成一个包含用户信息的JSON对象。 其优势主要如下: 上下文引导:通过提供特定的提示或上下文信息,模型可以更好地理解生成内容的方向。 约束
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象 训练日志中出现AttributeError: module '***' has no attribute '***'错误。如:AttributeError:
版训练作业,在训练作业运行期间获取训练日志并展示到本地。 使用PyCharm ToolKit创建并调试训练作业 OBS上传下载 上传本地文件或文件夹至OBS,从OBS下载文件或文件夹到本地。 使用PyCharm上传数据至Notebook 前提条件 本地已安装2019.2-2023
安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本 wget https://github.com/contai