检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
发布和管理AI Gallery数据集 托管数据集到AI Gallery 发布数据集到AI Gallery 管理AI Gallery数据集 父主题: AI Gallery(新版)
MaaS大模型即服务平台功能介绍 对于普通企业来说,大模型开发不仅需要强大的算力,还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台(后续简称为MaaS服务)作为一个面向客户的大模型服务化平台,提供简单易用的模型开发工具链,支
Boolean 是否通过图片色彩来聚类。 inf_cluster_id 否 String 专属集群ID,默认为空,不使用专属集群;使用专属集群部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效。 inf_config_list 否 Array of
Profiling数据采集 在train.py的main()函数Step迭代处添加配置,添加位置如下图所示: 此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。 更多信息,请参见Ascend PyTorch
添加标签 如果您还不太清楚如何进行标注,可参考数据集详情页面的“标注样例说明”完成标注。 登录ModelArts管理控制台,选择“数据准备 > 数据标注”进入数据标注页。 在“我创建的”或“我参与的”页签下,找到您需要标注的数据集。 单击数据集名称,进入标注详情页。(默认直接进入“未标注”页签)。
无需人工介入,仅需针对标注后的数据进行确认和修改即可,提升数据管理和标注效率。其次,您可以基于难例的情况,补充类似数据,提升数据集的丰富性,进一步提升模型训练的精度。 在数据集管理中,对难例的管理有如下场景。 智能标注后,确认难例 将数据集中的数据标注为难例 目前只有“图像分类”
注信息。 通过条件筛选数据 在数据概览页中,默认展示数据集的概览情况。在界面右上方,单击“开始标注”,进入数据集的详细数据页面,默认展示数据集中全部数据。在“全部”、“未标注”或“已标注”页签下,您可以在筛选条件区域,添加筛选条件,快速过滤出您想要查看的数据。 支持的筛选条件如下
栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。 在标注作业列表右侧“所有类型”页签下拉选择标注类型,基于“标注类型”选择需要进行标注的标注作业,单击标注作业名称进入标注作业标注详情页。 图3 下拉选择标注类型 在标注作业标注详情中,展示此标注作业下全部数据。 标注文本(文本分类)
栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。 在标注作业列表右侧“所有类型”页签下拉选择标注类型,基于“标注类型”选择需要进行标注的标注作业,单击标注作业名称进入标注作业标注详情页。 图1 下拉选择标注类型 在标注作业标注详情中,展示此标注作业下全部数据。 标注音频(声音分类)
如何将两个ModelArts数据集合并? 目前不支持直接合并。 但是可以参考如下操作方式,将两个数据集的数据合并在一个数据集中。 例如需将数据集A和数据集B进行合并。 分别将数据集A和数据集B进行发布。 发布后可获得数据集A和数据集B的Manifest文件。可通过数据集的“数据集输出位置”获得此文件。
发布时是否需要解析子样本序号,用于医疗数据集。可选值如下: true:解析子样本序号 false:不解析子样本序号(默认值) include_dataset_data Boolean 发布时是否包含数据集源数据。可选值如下: true:包含数据集源数据 false:不包含数据集源数据 is_current
ModelArts数据集新建的版本找不到怎么办? 版本列表是可以缩放的,请缩小页面后查找。 单击数据集名称,进入数据集概览页,在概览页选择“版本管理”,可对页面进行缩小。 父主题: Standard数据准备
目前只能指定切分比例,随机将样本划分到训练集或者验证集,不支持指定。 切分比例的指定: 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只
String 导出数据集版本的格式。 export_dataset_version_name String 导出数据集版本的名称。 export_dest String 数据集导出类型。可选值如下: DIR:导出到OBS(默认值) NEW_DATASET:导出到新数据集 export_new_dataset_name
导入成功后,单击想查看的模板即可查看响应内容。这里介绍一些常用功能的使用。 切换数据源和资源池 图5 切换数据源和资源池 单击红框中相应位置,即可出现下拉框,修改响应的数据源和资源池。 刷新数据 单击右上角的图标,即可刷新整个DashBoard的所有数据,各panel也会更新 修改自动刷新时间 图6 修改自动刷新时间
训练作业使用MoXing复制数据较慢,重复打印日志 问题现象 ModelArts训练作业使用MoXing复制数据较慢。 重复打印日志“INFO:root:Listing OBS”。 原因分析 复制数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭代缓慢。
使用PyCharm上传数据至Notebook 不大于500MB数据量,直接复制至本地IDE中即可。 大于500MB数据量,请先上传到OBS中,再从OBS下载到云上Notebook。 图1 数据通过OBS中转上传到Notebook 上传数据至OBS,具体操作请参见上传文件至OBS桶。
批量删除样本 根据样本的ID列表批量删除数据集中的样本。 dataset.delete_samples(samples) 示例代码 批量删除数据集中的样本 from modelarts.session import Session from modelarts.dataset import
基础设置 中文名称 显示数据集的名称,不可编辑。 许可证 数据集遵循的使用许可协议,根据业务需求选择合适的许可证类型。 语言 选择使用数据集时支持的输入输出语言。 任务类型 选择数据集支持用于什么类型的训练模型。 运行平台 选择数据集额外支持的运行平台。 设置运行平台后,当资产上架后,
开发环境(旧版) 创建开发环境实例 查询开发环境实例列表 查询开发环境实例详情 更新开发环境实例信息 删除开发环境实例 管理开发环境实例 父主题: 历史API