检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
介绍。 一般场景的训练模型都是包括随机种子、数据集Shuffle、网络结构Dropout等操作的,目的是在网络阶段引入一定的随机性使得训练结果更加具有鲁棒性。然而在精度对齐阶段,这些随机性会导致训练运行结果每次表现不一致,无法进行和标杆的比对。因此在训练模型复现问题时,需要固定存
SWRImage:用于定义已有的SWR路径,常用于模型注册场景 GalleryModel:用于定义从gallery订阅的模型,常用于模型注册场景 占位符式的数据对象,在工作流运行时指定: DatasetPlaceholder:用于定义在运行时需要确定的数据集,对应Dataset对象,常用于数据标注,模型训练等场景 L
restartModelArtsgTensorboardJob 模型管理支持审计的关键操作列表 表4 模型管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建模型 model addModel 更新模型 model updateModel 删除模型 model deleteModel 添加转换任务
经常不能一次性获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如准确率、召回率、AUC等,能帮助您有效的评估,最终获得一个满意的模型。 部署模型 模型的开发训练,是基于之前的已有数据(有可能是测试数据),而在得到一个满意的模型之后,需
训练作业进程异常退出 问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里
delete_source 否 Boolean 是否删除源文件,对非文本类型数据集有效(文本类型数据集因为是导入的整个文本文件,故删除一条样本不会对源文本有影响)。可选值如下: false:不删除源文件(默认值) true:删除源文件(注意:此操作可能影响已使用这些文件的数据集版本或其他数据集,导致页面展示异常或者训练/推理异常)
云上迁移适配故障 无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错
单机单卡训练 本小节使用上文的服务器环境和安装好的模型, 使用GP Ant8裸金属服务器, 完成单机单卡GPT-2 MEDIUM模型的训练。 创建预训练脚本文件。 执行以下命令,创建预训练脚本文件。 vim pretrain_gpt2.sh 在文件中添加以下信息。 #! /bin/bash
创建Workflow数据集节点 创建Workflow数据集标注节点 创建Workflow数据集导入节点 创建Workflow数据集版本发布节点 创建Workflow训练作业节点 创建Workflow模型注册节点 创建Workflow服务部署节点 父主题: 开发Workflow命令参考
参数名称 说明 数据源(“OBS”) “文件路径”:单击输入框右侧按钮,可打开当前账号下的所有OBS桶,请选择需要导入的数据文件所在目录。 “导入是否包含表头”:默认开启,表示导入文件包含表头。 如果您的原始表格中已包含表头,开启时,会将导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。
超过35G大小保存失败,为什么? 如何保证自定义镜像能不因为超过35G而保存失败? 如何减小本地或ECS构建镜像的目的镜像的大小? 镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗? 在ModelArts镜像管理注册镜像报错ModelArts.6787怎么处理? 用户如何设置默认的kernel?
图1 模型配置参数 单击“立即创建”,进入模型列表页,等模型状态变为“正常”,表示模型创建成功。 使用模型部署在线服务 登录ModelArts管理控制台,进入“模型部署 >在线服务”页面,单击“部署”,跳转至在线服务部署页面。 完成服务的配置,部分配置如下: 选择模型及版本:选择使用镜像创建模型创建完成的模型及版本
model_version String 模型版本。 model_type String 模型类型。 description String 模型描述信息。 project String 模型所属租户的项目id。 source_type String 模型来源的类型,仅当模型为自动学习部署过来时有值,取值为auto。
AI资产包括但不限于文本、图形、数据、文章、照片、图像、插图、代码、AI算法、AI模型等。 用户的个人信息包括: 用户注册时提供的昵称、头像、邮箱。 用户参加实践时提供的姓名、手机号、邮箱。 用户伙伴注册时提供的企业信息。 用户发布资产时提供的联系人姓名、手机号、邮箱。 资产管理 对于用户发布在AI
error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下: 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base
Benchmark精度检查工具,可以转换模型后执行推理前,使用其对MindSpore Lite模型进行基准测试,它不仅可以对MindSpore Lite模型前向推理执行耗时进行定量分析(性能),还可以通过指定模型输出进行可对比的误差分析(精度)。 模型自动调优工具 AOE(Ascend
Array of ServiceConfig objects 模型运行配置,当推理方式为batch/edge时仅支持配置一个模型;当推理方式为real-time时,可根据业务需要配置多个模型并分配权重,但多个模型的版本号不能相同。 additional_properties 否 Map<String
针对ModelArts不支持的AI引擎,您可以构建自定义镜像,并将镜像导入ModelArts,创建为模型。本案例详细介绍如何使用自定义镜像创建模型,并部署成在线服务。 面向熟悉代码编写和调测的AI工程师,同时熟悉docker容器知识 主流开源大模型基于Standard适配PyTorch NPU推理指导
Standard数据准备 在ModelArts数据集中添加图片对图片大小有限制吗? 如何将本地标注的数据导入ModelArts? 在ModelArts中数据标注完成后,标注结果存储在哪里? 在ModelArts中如何将标注结果下载至本地? 在ModelArts中进行团队标注时,为什么团队成员收不到邮件?
例如,如图1所示,当两个文本都被标注为“地点”,那么针对这两个实体,无法添加本示例中的任意一个关系标签。当无法添加某个关系标签时,界面将显示一个红色的叉号,如图2所示。 图1 实体标签和关系标签的示例 图2 无法添加关系标签 开始标注 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备>