检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
|── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights #
|── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights #
解析Manifest文件 解析Manifest文件,支持本地和OBS。如果是OBS,需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码 通过Manifest路径来解析获取Manifest的信息。
意义的数据。“数据处理”又分为“数据校验”、“数据清洗”、“数据选择”和“数据增强”四类。 “数据校验”表示对数据集进行校验,保证数据合法。 “数据清洗”表示对数据进行去噪、纠错或补全的过程。 “数据选择”表示从全量数据中选择数据子集的过程。 “数据增强”表示通过简单的数据扩增例
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
本教程案例是基于ModelArts Lite k8s Cluster运行的,需要购买并开通k8s Cluster资源。 准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。
本教程案例是基于ModelArts Lite k8s Cluster运行的,需要购买并开通k8s Cluster资源。 准备代码 准备AscendFactory训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。
tations/search-condition 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200
参数 参数类型 描述 folder String 文件夹名称。 file_name String 文件名称。 source Object 数据源信息,详细请见表3。 width Long 图片长度。 height Long 图片高度。 depth Long 图片深度。 segmented
true:团队标注任务的标注结果自动同步至数据集(默认值) false:团队标注任务的标注结果不自动同步至数据集 data_sync_type 否 Integer 同步类型。可选值如下: 0:不同步 1:同步数据 2:同步标签 3:同步数据和标签 repetition 否 Integer
授予子用户使用OBS服务的权限。ModelArts的数据集、开发环境、训练作业、模型推理部署均需要通过OBS进行数据中转。 OBS OperateAccess 必选 SWR容器镜像仓库 授予子用户使用SWR服务权限。ModelArts的自定义镜像功能依赖镜像服务SWR FullAccess权限。 SWR OperateAccess
asks/{workforce_task_id} 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是
Created 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
状态码 描述 204 No Content 401 Unauthorized 403 Forbidden 错误码 请参见错误码。 父主题: 数据管理(旧版)
背景说明 Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据,例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信
查询导出任务列表 查询数据集导出任务列表。 dataset.list_export_tasks() 示例代码 查询数据集导出任务列表 from modelarts.session import Session from modelarts.dataset import Dataset
标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 role 否 Integer 角色。可选值如下: 0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 响应参数 无 请求示例 更新标注团队成员 { "description" : "My name is Tom", "role"
<>=&"'特殊字符。 email String 标注成员邮箱。 role Integer 角色。可选值如下: 0:标注者 1:审核者 2:团队管理者 3:数据集拥有者 status Integer 标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除
Android 完全兼容。 360浏览器 L3 Android 完全兼容。 百度浏览器 L3 Android 完全兼容。 父主题: Standard数据准备
查询标注任务详情 查询标注任务的详细信息。 datset.get_label_task_info(task_id=None) 示例代码 查询标注任务的详情。 task_info = dataset.get_label_task_info(task_id="xs9ZKzLluKzccQfsyi2")