检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2
ModelArts数据集中的标注信息和数据在发布后,将以manifest格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。
Manifest管理概述 在ModelArts使用过程中,需要做数据标注、模型训练、推理、数据集管理、市场发布等业务,这些业务都基于数据集进行的。为了规范对数据集的使用,适配各个使用场景,同时兼顾数据集管理的灵活性,本文档描述数据集管理的接口和描述规范——Manifest文件。 Mani
60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2
Manifest管理概述 解析Manifest文件 创建和保存Manifest文件 解析Pascal VOC文件 创建和保存Pascal VOC文件 父主题: 数据管理
为什么通过Manifest文件导入失败? 问题现象 针对已发布的数据集,使用此数据集的Manifest文件,重新导入,此时出现导入失败的错误。 原因分析 针对已发布的数据集,其对应的OBS目录下,发生了数据变化,如删除图片,导致此Manifest文件与当前OBS目录下的数据情况不符。使用此Manifest文件再次导入时,出现错误。
批量删除样本 根据样本的ID列表批量删除数据集中的样本。 dataset.delete_samples(samples) 示例代码 批量删除数据集中的样本 from modelarts.session import Session from modelarts.dataset import
支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts
团队标注时,为什么团队成员收不到邮件? 团队标注时,成员收不到邮件的可能原因如下: 当数据集中的所有数据已完成标注,即“未标注”数据为空时,创建的团队标注任务,因为没有数据需要标注,不会给团队成员发送标注邮件。在发起团队标注任务时,请确保数据集中存在“未标注”数据。 只有当创建团队标注任务时,标注人员才会收到邮件。
false:不导入标签 import_folder 否 String 导入后在数据集存储目录下子目录的名称。多次不同导入可以指定同一个子目录,避免相同样本重复导入。注:对表格数据集不可用。 import_origin 否 String 数据来源。可选值如下: obs:OBS桶(默认值) dws:GaussDB(DWS)服务
查询样本列表 查询数据集的样本列表,不支持表格类型数据集。 dataset.list_samples(version_id=None, offset=None, limit=None) 示例代码 示例一:查询数据集样本列表 from modelarts.session import
1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。 5:图像的分辨率与训练数据集的特征分布存在较大偏移。 6:图像的高宽比与训练数据集的特征分布存在较大偏移。 7:图像的亮度与训练数据集的特征分布存在较大偏移。
\ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5
timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。 处理方法 如果在运行训练作业时提示连接超时,请您将需要联网下载的数据提前下载至本地,并上传至OBS中。 父主题: 外网访问限制
查询导入任务状态 根据任务ID查询数据集导入任务的状态和详情。 dataset.get_import_task_info(task_id) 示例代码 查询数据集导入任务的详情 from modelarts.session import Session from modelarts
意义的数据。“数据处理”又分为“数据校验”、“数据清洗”、“数据选择”和“数据增强”四类。 “数据校验”表示对数据集进行校验,保证数据合法。 “数据清洗”表示对数据进行去噪、纠错或补全的过程。 “数据选择”表示从全量数据中选择数据子集的过程。 “数据增强”表示通过简单的数据扩增例
原因最后训练结果也不太一致,此处建议您使用固定分支进行迁移。 数据集Firefly为本文用于多卡训练使用的数据集,数据集ADGEN为ChatGLM-6B ptuning训练适配的数据集,如果您运行环境为单卡环境下载数据集ADGEN。 父主题: 基于LLM模型的GPU训练业务迁移至昇腾指导
样本管理 查询样本列表 查询单个样本详情 批量删除样本 父主题: 数据管理
导出任务管理 查询导出任务列表 创建导出任务 查询导出任务状态 父主题: 数据管理
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理