检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts上传数据集收费吗? ModelArts中的数据集管理、标注等操作不收费,但是由于数据集存储在OBS中,因此会根据您使用的OBS桶进行收费。建议您前往OBS服务,了解OBS计费详情,创建相应的OBS桶用于存储ModelArts使用的数据。 父主题: 计费相关
登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在数据处理列表中,单击数据处理任务名称,进入数据处理任务的版本管理页面。您可以在该页面进行数据处理任务的“修改”与“删除”。 图1 数据处理版本管理页面 您可以在版本管理页面,通过切换页签查看“配置信息”、“日志”和“结果展示”。
parquet 如果在准备数据章节已下载数据集,此处无需重复操作。 SFT全参微调和LoRA微调训练使用的是同一个数据集,数据处理一次即可,训练时可以共用。 数据预处理说明 使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data
parquet 如果在准备数据章节已下载数据集,此处无需重复操作。 SFT全参微调和LoRA微调训练使用的是同一个数据集,数据处理一次即可,训练时可以共用。 数据预处理说明 使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 图像分割 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 支持 可以导入未标注或已标注数据
团队标注的数据分配机制是什么? 目前不支持用户自定义成员任务分配,数据是平均分配的。 当数量和团队成员人数不成比例,无法平均分配时,则将多余的几张图片,随机分配给团队成员。 如果样本数少于待分配成员时,部分成员会存在未分配到样本的情况。样本只会分配给labeler,比如10000
用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String 数据处理任务的版本ID。 请求参数 无 响应参数 无 请求示例 停止数据处理任务的版本 POST https://{endpoint}/v2/{p
通过团队标注方式标注数据 团队标注使用流程 创建和管理团队 创建团队标注任务 审核并验收团队标注任务结果 管理团队和团队成员 父主题: 标注ModelArts数据集中的数据
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本,出现SSH链接故障无法访问。
通过智能标注方式标注数据 创建智能标注作业 确认智能标注作业的数据难例 使用自动分组智能标注作业 父主题: 标注ModelArts数据集中的数据
dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 version_id 是 String 数据集版本ID。 请求参数 无 响应参数 无 请求示例 删除数据集标注版本 DELETE https
version_format 否 String 数据集版本格式。可选值如下: Default:默认格式 CarbonData:Carbon格式(仅表格数据集支持) CSV:CSV格式 version_id 否 String 数据集版本ID。当导出数据集某一版本的数据时,需要指定该参数。 with_column_header
将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。 <bucket_name> |──llm_train
Schema列表。 status Integer 数据集状态。当前可选值: 0:数据集创建中 1:数据集正常 2:数据集删除中 3:数据集已删除 4:数据集异常 5:数据集同步中 6:数据集发布中 7:数据集版本切换中 8:数据集导入中 third_path String 第三方路径。
查询数据处理的算法类别 功能介绍 查询数据处理的算法类别。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/processor-tasks/items
数据集版本不合格 出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即2种以上的标签),每种分类的图片数不少于5张。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
训练过程读取数据 在ModelArts上训练模型,输入输出数据如何配置? 如何提升训练效率,同时减少与OBS的交互? 大量数据文件,训练过程中读取数据效率低? 使用Moxing时如何定义路径变量? 父主题: Standard训练作业
LLM大语言模型训练推理 在ModelArts Studio基于Llama3-8B模型实现新闻自动分类 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.909) 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.909)