检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP ≥ 2)。对应训练参数 context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。
表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP ≥ 2)。对应训练参数 context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。
表2 响应Body参数 参数 参数类型 描述 labelers Array of strings 标注者列表。 labels Array of Label objects 标签列表。 metadata Map<String,Array<String>> 数据集的属性键值对。 表3 Label
表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP ≥ 2)。对应训练参数 context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。
ModelArts训练好后的模型如何获取? 如何查看训练作业的资源占用情况? 更多 Lite Server 哪里可以了解Atlas800训练服务器硬件相关内容 GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 更多 开发环境 在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多?
Gallery”,进行知识共享。 登录ModelArts管理控制台,在左侧导航栏中选择“模型管理”,进入模型列表页面。 单击模型的“版本数量”,在展开的版本列表中,单击“操作”列的“发布”进入发布页面。 在发布弹出框中,单击“前往AI Gallery”进入AI Gallery。 图1
Config...”,配置插件。 图3 配置插件 此时,会出现该账号已创建的所有包含SSH功能的Notebook列表,下拉进行选择对应Notebook。 图4 Notebook列表 KeyPair: 需要选择保存在本地的Notebook对应的keypair认证。即创建Notebook时
查询所有Notebook实例列表 功能介绍 查询所有Notebook实例列表,用户可按需查询满足条件的Notebook实例列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
否 String 算法管理的算法id。 name 否 String 算法名称。无需填写。 subscription_id 否 String 订阅算法的订阅ID。应与item_version_id一同出现。 item_version_id 否 String 订阅算法的版本。应与subscription_id一同出现。
训练作业训练失败报错:TypeError: unhashable type: ‘list’ 问题现象 使用订阅算法图像分类-EfficientNetB4进行训练报错:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多标签分类导致(即一个图片用了1个以上的标签)。
print(engine_dict) 使用案例 主要包含七种场景的用例: 使用订阅自AI Gallery的算法 使用算法管理中的算法 使用自定义算法(代码目录+启动文件+官方镜像) 使用自定义算法(代码目录+脚本命令+自定义镜像) 基于数据集版本发布节点构建作业类型节点 作业类型节点结合可视化能力
表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP ≥ 2)。对应训练参数 context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。
表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP ≥ 2)。对应训练参数 context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。
宽) × 表2 开源数据集训练效率参考 算法及数据 资源规格 Epoch数 运行时长(hh:mm:ss) 算法:PyTorch官方针对ImageNet的样例 数据:ImageNet分类数据子集 1机1卡Vnt1 10 0:05:03 算法:YOLOX 数据:COCO2017 1机1卡Vnt1
查询数据集导出任务列表 功能介绍 分页查询数据集导出任务列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datase
建议把调试过程中的修改点通过Dockerfile固化到容器构建正式流程,并重新测试。 确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。 训练场景主要查看自研的依赖包是否正常,查看pip
R镜像内容。 训练管理接口 表6 算法管理接口 API 说明 创建算法 创建一个算法。 查询算法列表 查询算法列表。 查询算法详情 根据算法ID查询指定算法。 更新算法 更新算法。 删除算法 删除算法。 查询超参搜索算法列表 查询超参搜索算法列表。 表7 训练作业管理接口 API
当前支持免费分享和订阅的资产类型有:Notebook代码样例、数据集、算法、模型、镜像。 商用资产由华为云云商店提供卖家发布和买家购买相关功能,AI Gallery仅提供列表展示。购买商业售卖的AI资产,本质上是购买算法、模型等AI资产的使用配额,在配额定义的约束下,有限地使用算法、模型等。 卖家发布AI类资产操作
Label objects 删除标签列表。 description 否 String 数据集描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 update_labels 否 Array of Label objects 更新标签列表。 表3 Label 参数 是否必选
表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP ≥ 2)。对应训练参数 context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。