检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
S桶名称)。 “启动文件”:选择代码目录下上传的训练脚本“train.py”。 “输入”:单击“增加训练输入”,设置训练输入的“参数名称”为“data_url”。设置数据存储位置为您的OBS目录,例如 “/test-modelarts-xx/pytorch/mnist-data/
适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“
设置训练故障优雅退出 使用场景 随着模型规模和数据集的急剧增长,需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台服务器故障,导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
VS Code中设置远端默认安装的插件 在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数,如自动安装Python和Maven插件,可配置如下。 "remote.SSH.defaultExtensions": [
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path,
AI引擎Scikit_Learn0.18.1的运行环境怎么设置? 在ModelArts的算法管理页面,创建算法时勾选“显示旧版镜像”,选择XGBoost-Sklearn引擎即可。 ModelArts创建算法操作请参见创建算法。 ModelArts创建训练作业操作请参见创建训练作业。
自动学习中偏好设置的各参数训练速度大概是多少 偏好设置中: performance_first:性能优先,训练时间较短,模型较小。对于TXT、图片类训练速度为10毫秒。 balance:平衡 。对于TXT、图片类训练速度为14毫秒 。 accuracy_first:精度优先,训练
在ModelArts创建分布式训练时如何设置NCCL环境变量? ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE
物体检测标注时除了位置、物体名字,是否可以设置其他标签,比如是否遮挡、亮度等? 可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。 图1 修改数据集 父主题: Standard数据管理
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注 OBS桶设置了自动加密会导致此问题,需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 父主题: Standard数据管理
资产识别与管理 资产识别 用户在AI Gallery中的资产包括用户发布的AI资产以及用户提供的一些个人信息。 AI资产包括但不限于文本、图形、数据、文章、照片、图像、插图、代码、AI算法、AI模型等。 用户的个人信息包括: 用户注册时提供的昵称、头像、邮箱。 用户参加实践时提供的姓名、手机号、邮箱。
从官网下载模型s3fd-619a316812.pth,并重命名为s3fd.pth,放在容器路径face_detection/detection/sfd下。上一步执行完source install.sh命令后,会自动生成face_detection/detection/sfd目录。 Step6 服务调用
从官网下载模型s3fd-619a316812.pth,并重命名为s3fd.pth,放在容器路径face_detection/detection/sfd下。上一步执行完source install.sh命令后,会自动生成face_detection/detection/sfd目录。 Step6 服务调用
r(speech encoder和identity encoder)去对输入的语音和视频人脸进行编码,并将二者的编码结果进行拼接,送入到face decoder中进行解码得到输出的视频帧。 判别器Visual Quality Discriminator对生成结果的质量进行规范,提高生成视频的清晰度。
配置ModelArts授权。若没有授权,ModelArts训练管理、开发环境、数据管理、在线服务等功能将不能正常使用。该API支持管理员给IAM子用户设置委托,支持设置当前用户的访问密钥。调用该API需要在IAM系统里配置Security Administrator权限。 调试 您可以在API Ex
原因分析 可能原因如下: 原因1:未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2
表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100
r(speech encoder和identity encoder)去对输入的语音和视频人脸进行编码,并将二者的编码结果进行拼接,送入到face decoder中进行解码得到输出的视频帧。 判别器Visual Quality Discriminator对生成结果的质量进行规范,提高生成视频的清晰度。
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。