检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图5 资源设置 表2 部署模型服务 参数 说明 取值样例 服务设置 服务名称 自定义模型服务的名称。 service-1122 描述 部署模型服务的简介。 - 模型设置 部署模型 当从“我的模型”进入部署模型服务页面时,此处默认呈现选择的模型。 Qwen2-7B 资源设置 资源池类型
“train_params.json” 必选文件,训练参数文件,定义了模型训练的必要参数,例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme.md” 必选文件,数据集要求说
训练代码中,如何获取依赖文件所在的路径? 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。
用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。 处理方法 查看算法代码中设置的训练资源规格。 检查创建训练作业时所选的资源规格是否正确,重新创建训练作业选择正确的资源规格。 父主题: 云上迁移适配故障
用户的自定义镜像中的ascend相关工具不可用,导致预检失败。 处理方法 通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。 父主题: Ascend相关问题
创建训练任务 针对专属池场景,应注意挂载的目录设置和调试时一致。 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如果未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作
用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也可以设置间隔30秒,1分钟,5分钟自动刷新事件。 查看Notebook实例事件的方法 单击Notebook名称,进入Notebook详情页,单击“事件”。
如何将多个物体检测的数据集合并成一个数据集? 可以在OBS桶中创建一个父级目录,目录下面设置不同的文件夹,将多个数据集分别导出到这些文件夹里面,最后用父目录创数据集即可。 登录ModelArts管理控制台,选择“数据管理>数据集”进入数据集概览页,单击右上角“导出”,将对应的数据
/usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH,设置完成后,重新下发作业即可。 例如so文件的存放路径为:/use/local/cuda/lib64,LD_LIBRARY_PATH设置如下: export LD_LIBRARY_PAT
删除AI应用 当AI应用不再使用时,支持删除,释放AI Gallery仓库的存储空间。 在AI应用详情页,选择“设置”页签。 确认AI应用状态是否为“运行中”。 是,则在“运行资源设置”处,单击“暂停”,停止AI应用再执行下一步。 否,则执行下一步。 在“删除AI应用”处,单击“删除AI应用”按钮,确认后AI应用将被删除。
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。
在“版本管理”页面中,选择对应的数据集版本,在数据集版本基本信息区域,单击“设置为当前版本”。设置完成后,版本名称右侧将显示为“当前版本”。 图1 设置当前版本 只有状态为“正常”的版本,才能被设置为当前版本。 删除数据集版本 登录ModelArts管理控制台,在左侧菜单栏中选
在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。 因此,推荐在创建AI应用时配置健康检查,并设置合理的延迟检测时间, 实现实际业务的是否成功的检测,确保服务部署成功。 父主题: 在线服务
过条件筛选出需要的数据,导出到AI Gallery。用户可以通过任务历史查看数据导出的历史记录。发布到AI Gallery中的数据集,可以设置是否公开,将数据集公开给其他人使用。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。
快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 筛选数据 在标注作业详情页面,默认展示
但对个人用户则显得复杂而意义不足,所以建议个人用户在使用ModelArts时,参照个人用户快速配置ModelArts访问权限来进行初始权限设置。 您是否需要阅读本文档? 如果下述问题您的任何一个回答为“是”,则需要阅读此文档 您是企业用户,且 存在多个部门,且需要限定不同部门的用户只能访问其专属资源、功能
型企业用户的使用场景下很常见,但对个人用户则显得复杂而意义不足,所以建议个人用户在使用ModelArts时,参照配置访问授权来进行初始权限设置。 您是否需要阅读本文档? 如果下述问题您的任何一个回答为“是”,则需要阅读此文档 您是企业用户,且 存在多个部门,且需要限定不同部门的用户只能访问其专属资源、功能
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。